Google выпустила ReasoningBank, интеллектуальные системы извлекают стратегии рассуждения из опыта успехов и неудач

robot
Генерация тезисов в процессе

Битсайт сообщает, что согласно мониторингу Beating, исследовательский институт Google выпустил рамочную структуру памяти для интеллектуальных агентов ReasoningBank, позволяющую моделям с большим числом параметров постоянно обучаться после развертывания. Основной подход заключается в том, чтобы обобщить опыт успешных и неудачных задач в универсальные стратегии рассуждения и сохранить их в памяти, чтобы при столкновении с похожими задачами сначала осуществлять поиск, а затем выполнять. Связанная статья опубликована на ICLR, код уже открыт на GitHub. Ранее существовали два основных подхода, каждый из которых имел недостатки: Synapse записывает полный маршрут действий, что слишком детально и трудно переносимо; Agent Workflow Memory извлекает рабочие процессы только из успешных случаев. ReasoningBank изменил два аспекта: объект хранения заменен с «последовательности действий» на «модель рассуждения», каждая запись содержит структурированные поля: заголовок, описание и содержание; также включены неудачные маршруты для обучения. Модель вызывает другую большую модель для самопроверки выполненного маршрута, а неудачный опыт разбит на правила избегания ошибок, например, вместо «видишь кнопку Load More — нажимай» — «сначала проверь текущий статус страницы, чтобы избежать бесконечной прокрутки, затем нажимай загрузить еще». В статье также предложена Memory-aware Test-time Scaling (MaTTS), при которой во время рассуждения выделяется больше вычислительных ресурсов для многократных попыток, а процесс исследования сохраняется в памяти. Параллельное расширение позволяет агенту запускать несколько различных маршрутов для одной задачи и извлекать более устойчивые стратегии через самосравнение; последовательное расширение внутри одного маршрута включает многократную доработку, а промежуточные рассуждения записываются в память. На двух бенчмарках — браузерной задаче WebArena и задаче с проверенными кодами SWE-Bench-Verified — при использовании ReAct-агента Gemini 2.5 Flash с ReasoningBank по сравнению с базовой моделью без памяти уровень успеха на WebArena вырос на 8,3%, на SWE-Bench-Verified — на 4,6%, при этом в среднем количество шагов сократилось примерно на 3. После добавления параллельного расширения MaTTS (k=5) уровень успеха на WebArena увеличился еще на 3 процентных пункта, а количество шагов снизилось еще на 0,4.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить