ME News ニュース、4月10日(UTC+8)、スタンフォードAI研究所(StanfordAILab)は最近、「LLM-as-a-Verifier」という汎用検証フレームワークを発表しました。このフレームワークは、評価粒度の拡張、繰り返し検証、標準分解などの方法を通じて、Terminal-Bench 2基準テストで86.4%の精度を達成し、SWE-Bench Verified基準テストで77.8%の精度を達成し、いずれも現状最高水準(SOTA)に達しています。記事には関連するブログやコードのリンクが提供されています。(出典:InFoQ)
スタンフォードAI研究所は、汎用検証フレームワークLLM-as-a-Verifierを発表し、2つのベンチマークテストでSOTAを達成しました。
ME News ニュース、4月10日(UTC+8)、スタンフォードAI研究所(StanfordAILab)は最近、「LLM-as-a-Verifier」という汎用検証フレームワークを発表しました。このフレームワークは、評価粒度の拡張、繰り返し検証、標準分解などの方法を通じて、Terminal-Bench 2基準テストで86.4%の精度を達成し、SWE-Bench Verified基準テストで77.8%の精度を達成し、いずれも現状最高水準(SOTA)に達しています。記事には関連するブログやコードのリンクが提供されています。(出典:InFoQ)