Google випустила ReasoningBank, штучний інтелект витягує стратегії логіки з досвіду успіхів і невдач

robot
Генерація анотацій у процесі

Звіт з CoinWorld, згідно з моніторингом Beating, дослідницький інститут Google опублікував рамкову систему пам’яті для інтелектуальних агентів ReasoningBank, яка дозволяє моделям-агентам постійно навчатися після розгортання. Основний підхід полягає в тому, щоб витягти досвід успіхів і невдач у попередніх завданнях у загальні стратегії логіки та зберегти їх у пам’яті, щоб при зустрічі подібних завдань спершу здійснювати пошук, а потім виконувати. Відповідна стаття опублікована на ICLR, код вже відкритий на GitHub. Раніше два основних підходи мали свої недоліки: Synapse фіксує повний шлях дій, що занадто детально для переносу; Agent Workflow Memory витягує робочі процеси лише з успішних випадків. ReasoningBank змінив два моменти: об’єкт збереження з «послідовності дій» на «логічний режим», кожен запис містить структуровані поля з заголовком, описом і змістом; також враховано траєкторії невдач для навчання. Модель викликає іншу велику модель для самостійної оцінки виконання, невдалі досвіди розбиваються на правила запобігання помилкам, наприклад, з «клікнути Load More при появі кнопки» до «спочатку перевірити індикатор сторінки, щоб уникнути безкінечного прокручування, потім натиснути». У статті також запропоновано Memory-aware Test-time Scaling (MaTTS), що використовує більше обчислювальної потужності під час логіки для повторних спроб і зберігає процес дослідження у пам’яті. Паралельне розширення дозволяє агентам запускати кілька різних траєкторій для одного й того ж завдання, витягаючи більш стабільні стратегії через самопорівняння; послідовне розширення передбачає повторне вдосконалення однієї траєкторії, записуючи проміжні логіки у пам’ять. На базі браузерного завдання WebArena та кодувального тесту SWE-Bench-Verified, використовуючи Gemini 2.5 Flash для ReAct-агентів, ReasoningBank у порівнянні з базовими без пам’яті показав підвищення успішності на 8.3% у WebArena і на 4.6% у SWE-Bench-Verified, зменшивши середню кількість кроків приблизно на 3; додавання MaTTS з паралельним розширенням (k=5) підвищило успішність у WebArena ще на 3 відсотки і зменшило кількість кроків ще на 0.4.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити