スタンフォードAI研究所は、汎用検証フレームワークLLM-as-a-Verifierを発表し、2つのベンチマークテストでSOTAを達成しました。

2026-04-10 01:01:33

概要作成中

ME News ニュース、4月10日（UTC+8）、スタンフォードAI研究所（StanfordAILab）は最近、「LLM-as-a-Verifier」という汎用検証フレームワークを発表しました。このフレームワークは、評価粒度の拡張、繰り返し検証、標準分解などの方法を通じて、Terminal-Bench 2基準テストで86.4％の精度を達成し、SWE-Bench Verified基準テストで77.8％の精度を達成し、いずれも現状最高水準（SOTA）に達しています。記事には関連するブログやコードのリンクが提供されています。（出典：InFoQ）

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。