GoogleがReasoningBankを公開、エージェントが成功と失敗の経験から推論戦略を抽出

robot
概要作成中
ME News ニュース、4月22日(UTC+8)、動察Beatingの監視によると、Google研究所はインテリジェントエージェントの記憶フレームワークReasoningBankを発表し、大規模モデル駆動のインテリジェントエージェントが展開後も継続的に学習できるようにした。コアな方法は、過去のタスクの成功と失敗の経験を汎用的な推論戦略に抽出し記憶庫に保存し、次に類似のタスクに遭遇した際に検索してから実行することである。関連論文はICLRで発表され、コードはすでにGitHubでオープンソース化されている。
従来の二つの主流方案にはそれぞれ欠点があった:Synapseは完全な行動軌跡を記録するが粒度が細すぎて移行が難しい;Agent Workflow Memoryは成功例からのみワークフローを抽出していた。ReasoningBankは二つの点を改良した:記憶対象を「アクションシーケンス」から「推論パターン」に変更し、各記憶にはタイトル、説明、内容の三段階の構造化フィールドを持たせた;失敗軌跡も学習に取り入れた。モデルは別の大規模モデルを呼び出して実行軌跡を自己評価し、失敗経験は落とし穴回避ルールに分解される。例えば、「Load Moreボタンを見たらクリック」から「まず現在のページの識別を確認し、無限スクロールに陥るのを避けてからロードをクリック」にアップグレードされた。
論文では他にMemory-aware Test-time Scaling(MaTTS)も提案されており、推論時により多くの計算資源を投入して反復的に試行し、その探索過程を記憶庫に保存する。並列拡張により、インテリジェントエージェントは同一タスクに対して複数の異なる軌跡を実行し、自身で比較してより堅牢な戦略を抽出できる;順次拡張は単一軌跡内で繰り返し精緻化し、その中間推論を記憶に記録する。
WebArenaブラウザタスクとSWE-Bench-Verifiedコードタスクの二つのベンチマーク上で、Gemini 2.5 Flashを用いたReActインテリジェントエージェントは、ReasoningBankを用いた場合、記憶なしのベースラインと比較してWebArenaで成功率が8.3%向上、SWE-Bench-Verifiedで4.6%向上し、各タスク平均で約3ステップ短縮された;MaTTSの並列拡張(k=5)を重ねると、WebArenaの成功率はさらに3ポイント向上し、ステップ数も0.4ステップ短縮された。
(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め