スタンフォードとバークレーはLLM-as-a-Verifierを提案し、同時にTerminal-BenchとSWE-Benchのトップを更新した

robot
概要作成中

ME News ニュース、4月14日(UTC+8)、1M AI Newsの監視によると、AIプログラミングエージェントが単一のタスクを処理する際、複数回実行することで異なる解法が得られることが多く、その中には誤りも含まれる可能性がある。もし最良の解法を自動的に選び出せれば、全体の成功率は単一の実行を超えることができる。問題はどうやって選ぶかだ:もう一つのモデルを裁判官として採点させる(すなわちLLM-as-a-Judge)が現在の主流だが、採点の粒度が粗く、しばしば異なる解法に同じスコアを付けて優劣をつけられないことがある。スタンフォードAI研究所とバークレーSky Computing研究所は、NVIDIAと共同でLLM-as-a-Verifierを提案し、この選別プロセスを改善した。裁判官の最終スコアだけを見るのではなく、モデルが各評価レベルで持つ確率分布を読み取り、それから連続的な報酬値を計算する。同時に裁判官に複数回判定させて平均を取り、偶然の偏りを排除し、全体の評価を3つの独立した次元(タスク要件の満足度、出力フォーマットの正確さ、エラー信号の有無)に分けて検証する。実験ではGemini 2.5 Flashを検証器として使用し、単一検証の正確率は74.7%、従来のJudgeは57.0%にとどまる。これを16回繰り返した後、Verifierは77.4%、Judgeは70.2%に達した。従来のJudgeは26.5%の対比で引き分けに終わることが多いが、Verifierはすべての設定で引き分け率が0%だった。実際の効果:Terminal-Bench 2上で、GPT-5.4に同じタスクを5回実行させ、ランダムに選んだ解法の成功率は81.8%、Verifierで選別した後は86.4%に向上した。SWE-Bench Verifiedでは、Claude Opus 4.5、Claude Opus 4.6、Gemini 3 Flashの各1解法(合計3解法)から選び出し、76.1%から77.8%に向上した。4月9日のリリース時点で、両方ともトップの成績だった。フレームワークはオープンソース化されている。(出典:BlockBeats)

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし