OpenAI推出计算生物学基准GeneBench-Pro,GPT-5.6满血版正确率仅三成

robot
摘要生成中
币界网消息,OpenAI发布了计算生物学评测基准GeneBench-Pro,用来测试AI智能体在面对基因组学和转化医学等复杂科研场景时的多步决策能力。新基准共包含129个问题(其中82个经过外部专家评审),通过计算机模拟生成具有明确因果关系的数据,防止模型通过走捷径或迎合出题人偏好来作弊。测试结果显示,顶尖模型在处理包含量化不确定性的科学推理时依然非常吃力。最强的GPT-5.6在开启Pro模式下仅能达到31.5%的正确率,而Claude Opus 4.8的正确率仅有16.0%。研究团队指出,模型普遍存在「能发现异常但不会修正后续分析」的脱节现象,经常选错统计方法或坚持错误的科研方向。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 3
  • 2
  • 分享
评论
请输入评论内容
请输入评论内容
退潮的贝壳
· 3小时前
这分数看得我沉默了,Claude Opus才16%?
回复0
盐焗情绪盘
· 3小时前
129题里82道专家审过,防作弊这块确实用心了,但模型连统计方法都选错,说明底层逻辑还是缺
回复0
像素宇宙狸
· 3小时前
多步决策容易,但发现错了还硬走下去,这不就是我做实验的样子吗
回复0