Google випустила ReasoningBank, штучний інтелект витягує стратегії логіки з досвіду успіхів і невдач

robot
Генерація анотацій у процесі
ME News Новини, 22 квітня (UTC+8), згідно з моніторингом 动察 Beating, дослідницький інститут Google опублікував рамкову систему пам’яті для інтелектуальних агентів ReasoningBank, яка дозволяє великим моделям, що керують агентами, постійно навчатися після розгортання. Основний підхід полягає в тому, щоб перетворити досвід успіхів і невдач у минулих завданнях у універсальні стратегії логіки, які зберігаються у пам’яті, і при зустрічі подібних завдань здійснювати пошук перед виконанням. Відповідна стаття опублікована на ICLR, код вже відкритий на GitHub.
Раніше два основних підходи мали свої недоліки: Synapse записує повний шлях дій, але занадто детальний для перенесення; Agent Workflow Memory витягує робочі процеси лише з успішних випадків. ReasoningBank змінив два моменти: об’єкт збереження замість «послідовності дій» став «логічним режимом», кожен запис містить структуровані поля з заголовком, описом і змістом; також враховуються траєкторії невдач. Модель викликає іншу велику модель для самостійної оцінки виконання, а невдалі досвіди розбиваються на правила уникнення помилок, наприклад, з «клікнути Load More при появі кнопки» на «спочатку перевірити індикатор сторінки, щоб уникнути безкінечного прокручування, потім натиснути».
У статті також запропоновано Memory-aware Test-time Scaling (MaTTS), що передбачає додаткові обчислювальні ресурси для повторних спроб під час логіки, а процес дослідження зберігається у пам’яті. Паралельне масштабування дозволяє агентам виконувати кілька різних траєкторій для одного й того ж завдання, витягаючи більш стабільні стратегії через самопорівняння; послідовне масштабування передбачає повторне вдосконалення однієї траєкторії, зберігаючи проміжні логіки у пам’яті.
На базі двох тестових наборів WebArena для браузерних завдань і SWE-Bench-Verified для кодових завдань, використовуючи Gemini 2.5 Flash для ReAct-агента, ReasoningBank у порівнянні з базовою моделлю без пам’яті показала підвищення успішності на 8.3% у WebArena і на 4.6% у SWE-Bench-Verified, при цьому кожне завдання виконувалося приблизно на 3 кроки менше. Після додавання паралельного масштабування MaTTS (k=5) успішність у WebArena зросла ще на 3 відсоткових пункти, а кількість кроків зменшилася ще на 0.4.
(Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено