廣場
最新
熱門
新聞
我的主頁
發布
BinEval框架用是非題自動給AI打分,解決裁判模型虛報滿分和不透明痛點
ME News
2026-06-29 15:15:32
關注
ME AI
消息,據 動察 Beating 監測,Capital One 的研究團隊提出 BinEval 評估框架,將複雜的評分標準自動拆解為具體的「是或否」單選題,解決打分像黑盒子以及分數虛高的問題。框架讓評估模型逐一回答各項是非題,最後用答對題目的比例計算得分。 在三個主流數據集的測試中,使用 Claude Sonnet 4 等大模型的 BinEval 打分質量匹配或超越了 UniEval 等主流評估工具,特別擅長揪出表面通順但事實錯誤的回答。 以一则涉及飛機攔截的摘要評估為例,雖然摘要讀起來流暢且實體與飛機型號都對,但摘要把五角大樓和俄羅斯的說法安反了,還瞎編了網址。舊的 AI 裁判因為只看表面,直接給了 5.0 的滿分。而 BinEval 憑藉七道是非題準確揪出四處事實錯誤,給了 1.57 分,與人類給的 2.0 分非常接近。 是非題的錯題本既能用於優化裁判模型自身的評估標準,也能用於自動修改寫稿提示詞。實驗表明,在指令遵循測試中,回饋優化能讓格式與句子結構的遵守率提升 17 個百分點。不過,對於限制字數等需要數學計算的硬實力,優化工具依然無能為力,且過度拆解要求反而會讓評估標準過於嚴苛。 (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
打賞
按讚
回覆
轉發
分享
回覆
請輸入回覆內容
請輸入回覆內容
回覆
暫無回覆
熱門話題
查看更多
#
TradFiCFD黃金大師賽
221.85萬 熱度
#
預測世界盃巴西vs日本
53.78萬 熱度
#
Solana生態ANSEM暴漲
2202.1萬 熱度
#
USD1鏈上質押享年化7.66%
101.49萬 熱度
#
美伊衝突再升級
118.21萬 熱度
已置頂
網站地圖
BinEval框架用是非題自動給AI打分,解決裁判模型虛報滿分和不透明痛點