谷歌發布ReasoningBank,智能體從成敗經驗中提煉推理策略

robot
摘要生成中
ME News 消息,4 月 22 日(UTC+8),據 動察 Beating 監測,谷歌研究院發布智能體記憶框架 ReasoningBank,讓大模型驅動的智能體在部署後持續學習。核心做法是把過往任務的成功和失敗經驗都提煉成通用的推理策略存入記憶庫,下次遇到類似任務先檢索再執行。相關論文在 ICLR 發表,程式碼已在 GitHub 開源。 此前兩類主流方案各有缺陷:Synapse 記錄完整行動軌跡,粒度太細難遷移;Agent Workflow Memory 只從成功案例提煉工作流。ReasoningBank 改了兩處:存儲對象從「動作序列」換成「推理模式」,每條記憶含標題、描述、內容三段結構化字段;失敗軌跡也納入學習。模型調用另一個大模型對執行軌跡自評,失敗經驗被拆成防踩坑規則,例如從「看見 Load More 按鈕就點」升級為「先核對當前頁面標識,避免陷入無限滾動,再點擊加載更多」。 論文另提出 Memory-aware Test-time Scaling(MaTTS),在推理時投入更多算力反覆嘗試,並把探索過程存入記憶庫。並行擴展讓智能體對同一任務跑多條不同軌跡,通過自對比提煉更穩健的策略;順序擴展在單條軌跡內反覆精修,把中間推理記入記憶庫。 在 WebArena 瀏覽器任務和 SWE-Bench-Verified 代碼任務兩個基準上,用 Gemini 2.5 Flash 做 ReAct 智能體,ReasoningBank 比較無記憶基線在 WebArena 上成功率高 8.3%,SWE-Bench-Verified 上高 4.6%,每項任務平均少走約 3 步;疊加 MaTTS 並行擴展(k=5)後,WebArena 成功率再提 3 個百分點,步數再少 0.4 步。 (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆