スタンフォードとバークレーはLLM-as-a-Verifierを提案し、同時にTerminal-BenchとSWE-Benchのトップを更新した

robot
概要作成中

ME News ニュース、4月14日(UTC+8)、1M AI Newsの監視によると、AIプログラミングエージェントが単一のタスクを処理する際、複数回実行することで異なる解法が得られることが多く、その中には誤りも含まれる可能性がある。もし最良の解法を自動的に選び出せれば、全体の成功率は一度の実行を超えることができる。問題はどうやって選ぶかだ:別のモデルを裁判官として採点させる(すなわちLLM-as-a-Judge)は現在の主流だが、採点の粒度が粗く、異なる解法に対して同じスコアを付けることが多く、優劣をつけにくい。スタンフォードAI研究所とバークレーSky Computing研究所は、NVIDIAと共同でLLM-as-a-Verifierを提案し、この選択プロセスを改善した。裁判官の最終スコアだけを見るのではなく、モデルが各評価レベルで出す確率分布を読み取り、それから連続的な報酬値を計算する。また、裁判官に複数回判定させて平均を取り、偶然の偏りを排除し、全体評価を3つの独立した次元(タスク要件の満足度、出力フォーマットの正確さ、誤信号の有無)に分けて検証した。実験ではGemini 2.5 Flashを検証器として使用し、単一検証の正確率は74.7%、従来のJudgeは57.0%にとどまった。これを16回繰り返した後、Verifierは77.4%、Judgeは70.2%に達した。従来のJudgeは26.5%の対比で引き分けに終わることが多かったが、Verifierはすべての設定で引き分け率が0%だった。実際の効果:Terminal-Bench 2上で、GPT-5.4に同じタスクを5回実行させ、ランダムに選んだ解法の成功率は81.8%、Verifierで選択後は86.4%に向上した。SWE-Bench Verifiedでは、Claude Opus 4.5、Claude Opus 4.6、Gemini 3 Flashの各1解法(合計3解法)から選び、76.1%から77.8%に向上した。4月9日のリリース時点で、両方ともトップの成績だった。フレームワークはオープンソース化されている。(出典:BlockBeats)

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし