Google выпустила ReasoningBank, интеллектуальные системы извлекают стратегии рассуждения из опыта успехов и неудач

robot
Генерация тезисов в процессе
ME Новости, 22 апреля (UTC+8), согласно мониторингу 动察 Beating, исследовательский институт Google выпустил рамочную структуру памяти для интеллектуальных агентов ReasoningBank, позволяющую моделям с большим числом параметров постоянно учиться после развертывания. Основной подход заключается в том, чтобы извлечь успешный и неудачный опыт из прошлых задач и сохранить его в базе данных общего типа, а при столкновении с похожими задачами сначала осуществлять поиск, а затем выполнять. Связанная статья опубликована на ICLR, код уже открыт на GitHub.
Ранее два основных подхода имели свои недостатки: Synapse записывает полный маршрут действий, что слишком детально и трудно переносимо; Agent Workflow Memory извлекает рабочие процессы только из успешных случаев.
ReasoningBank изменил два аспекта: объект хранения заменен с «последовательности действий» на «модель рассуждения», каждая запись содержит заголовок, описание и содержимое в структурированном виде; также включены неудачные маршруты для обучения.
Модель вызывает другую большую модель для самопроверки выполнения маршрута, а неудачный опыт разбит на правила избегания ошибок, например, вместо «видишь кнопку Load More — нажимай» используется «сначала проверь текущий статус страницы, чтобы избежать бесконечной прокрутки, затем нажми загрузить еще».
В статье также предложена Memory-aware Test-time Scaling (MaTTS), при которой во время рассуждения выделяется больше вычислительных ресурсов для многократных попыток, а процесс исследования сохраняется в памяти.
Параллельное расширение позволяет агенту выполнять несколько различных маршрутов для одной задачи, используя самопорівнювання для извлечения более устойчивых стратегий; последовательное расширение включает многократную доработку одного маршрута, при этом промежуточные рассуждения записываются в память.
На двух бенчмарках WebArena для браузерных задач и SWE-Bench-Verified для задач с кодом, используя Gemini 2.5 Flash для ReAct-агентов, ReasoningBank по сравнению с базовой моделью без памяти показывает на WebArena рост успешности на 8.3%, на SWE-Bench-Verified — на 4.6%, а в среднем по задачам сокращение на 3 шага; при добавлении параллельного расширения MaTTS (k=5) успешность в WebArena увеличивается еще на 3 процентных пункта, а количество шагов сокращается еще на 0.4.
(Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено