BinEval框架用是非题自动给AI打分,解决裁判模型虚报满分和不透明痛点

ME AI 消息,据 动察 Beating 监测,Capital One 的研究团队提出 BinEval 评估框架,将复杂的评分标准自动拆解为具体的「是或否」单选题,解决打分像黑盒子以及分数虚高的问题。框架让评估模型逐一回答各项是非题,最后用答对题目的比例计算得分。 在三个主流数据集的测试中,使用 Claude Sonnet 4 等大模型的 BinEval 打分质量匹配或超越了 UniEval 等主流评估工具,特别擅长揪出表面通顺但事实错误的回答。 以一则涉及飞机拦截的摘要评估为例,虽然摘要读起来流畅且实体与飞机型号都对,但摘要把五角大楼和俄罗斯的说法安反了,还瞎编了网址。旧的 AI 裁判因为只看表面,直接给了 5.0 的满分。而 BinEval 凭借七道是非题准确揪出四处事实错误,给出了 1.57 分,与人类给出的 2.0 分非常接近。 是非题的错题本既能用于优化裁判模型自身的评估标准,也能用于自动修改写稿提示词。实验表明,在指令遵循测试中,反馈优化能让格式与句子结构的遵守率提升 17 个百分点。不过,对于限制字数等需要数学计算的硬实力,优化工具依然无能为力,且过度拆解要求反而会让评估标准过于严苛。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论
  • 置顶