スタンフォードとバークレーはLLM-as-a-Verifierを提案し、同時にTerminal-BenchとSWE-Benchのトップを更新した

robot
概要作成中

ME News メッセージ、4 月 14 日(UTC+8)、1M AI News の監視によると、AI プログラミングエージェントが単一のタスクを処理する際、複数回実行すると異なる解法が得られることが多く、その中には誤りも含まれる可能性がある。最良の解法を自動的に選び出せれば、全体の成功率は一回の実行を超えることができる。問題はどうやって選ぶかだ:別のモデルを裁判官として採点させる(つまり LLM-as-a-Judge)ことが現在の主流だが、採点の粒度が粗く、しばしば異なる解法に同じスコアを付けて優劣をつけられない。スタンフォードAI研究所とバークレーSky Computing研究所は、NVIDIAと共同で LLM-as-a-Verifier を提案し、この選択プロセスを改善した。最終的なスコアだけを見るのではなく、モデルが各評価レベルで出す確率分布を読み取り、それから連続的な報酬値を計算する。また、裁判官に複数回評価させて平均を取り、偶然の偏りを排除し、全体評価を3つの独立した次元(タスク要件の満足度、出力フォーマットの正確さ、誤信号の有無)に分けて検証した。実験では Gemini 2.5 Flash を検証器として使用し、単一検証の正確率は 74.7%、従来の Judge は 57.0%;これを16回繰り返すと Verifier は 77.4%、Judge は 70.2% に達した。従来の Judge は 26.5% の対比で引き分けに終わることが多く、Verifier はすべての設定で引き分け率が 0% だった。実際の効果:Terminal-Bench 2 で、GPT-5.4 に同じタスクを5回実行させ、ランダムに選んだ一つの成功率は 81.8%、Verifier で選択後は 86.4% に向上した。SWE-Bench Verified では、Claude Opus 4.5、Claude Opus 4.6、Gemini 3 Flash からそれぞれ1つの解法(合計3つ)を選び、選択後の成功率は 76.1% から 77.8% に向上した。4月9日のリリース時点で、両方ともトップの成績だった。フレームワークはオープンソース化されている。(出典:BlockBeats)

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし