広場
最新
注目
ニュース
プロフィール
ポスト
BinEvalフレームワークは○×問題でAIに自動的にスコアを付け、審判モデルが満点を虚偽報告する問題と不透明な痛点を解決します。
MeNews
2026-06-29 15:15:32
フォロー
ME AI
の報道によると、動察 Beating のモニタリングによれば、Capital One の研究チームは BinEval 評価フレームワークを提案し、複雑な評価基準を自動的に具体的な「はい/いいえ」の単一選択問題に分解し、採点がブラックボックス化し、スコアが過大評価される問題を解決する。このフレームワークは評価モデルに各是非問題に一つずつ回答させ、最後に正解した問題の割合でスコアを計算する。3つの主要データセットでのテストでは、Claude Sonnet 4 などの大規模モデルを用いた BinEval の評価品質は、UniEval などの主流評価ツールと同等かそれを上回り、特に表面上は自然だが事実が誤っている回答を見抜くのが得意である。航空機の迎撃に関する要約評価を例に挙げると、要約は読みやすく、エンティティや機種名は正しいものの、五角形とロシアの発言を逆にし、さらにURLをでっち上げていた。旧来のAI審判は表面的な内容だけを見て、満点の5.0を与えた。一方、BinEval は7つの是非問題で正確に4つの事実誤認を特定し、1.57点を出し、人間が与えた2.0点に非常に近い結果となった。是非問題の誤答集は、審判モデル自身の評価基準の最適化だけでなく、記事作成のプロンプトの自動修正にも使用できる。実験によると、指示従順テストにおいて、フィードバック最適化により形式と文構造の遵守率が17ポイント向上した。ただし、字数制限など数学的な計算が必要な厳しい条件については、最適化ツールは依然として無力であり、要件を過度に分解すると評価基準が厳しくなりすぎる可能性がある。(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
報酬
いいね
コメント
リポスト
共有
コメント
コメントを追加
コメントを追加
コメント
コメントなし
人気の話題
もっと見る
#
TradFiCFDGoldMaster
2.21M 人気度
#
SaylorHintsAtMoreBTC
8.52M 人気度
#
IsraelStrikesIranBTCPlunges
66.43K 人気度
#
PredictWorldCupShare20000U
557.37K 人気度
#
SolanaEcosystemANSEMSurges
22.02M 人気度
ピン留め
サイトマップ
BinEvalフレームワークは○×問題でAIに自動的にスコアを付け、審判モデルが満点を虚偽報告する問題と不透明な痛点を解決します。