BinEval框架用是非題自動給AI打分,解決裁判模型虛報滿分和不透明痛點

ME AI 消息,據 動察 Beating 監測,Capital One 的研究團隊提出 BinEval 評估框架,將複雜的評分標準自動拆解為具體的「是或否」單選題,解決打分像黑盒子以及分數虛高的問題。框架讓評估模型逐一回答各項是非題,最後用答對題目的比例計算得分。 在三個主流數據集的測試中,使用 Claude Sonnet 4 等大模型的 BinEval 打分質量匹配或超越了 UniEval 等主流評估工具,特別擅長揪出表面通順但事實錯誤的回答。 以一则涉及飛機攔截的摘要評估為例,雖然摘要讀起來流暢且實體與飛機型號都對,但摘要把五角大樓和俄羅斯的說法安反了,還瞎編了網址。舊的 AI 裁判因為只看表面,直接給了 5.0 的滿分。而 BinEval 憑藉七道是非題準確揪出四處事實錯誤,給了 1.57 分,與人類給的 2.0 分非常接近。 是非題的錯題本既能用於優化裁判模型自身的評估標準,也能用於自動修改寫稿提示詞。實驗表明,在指令遵循測試中,回饋優化能讓格式與句子結構的遵守率提升 17 個百分點。不過,對於限制字數等需要數學計算的硬實力,優化工具依然無能為力,且過度拆解要求反而會讓評估標準過於嚴苛。 (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆
  • 已置頂