OpenAI推出計算生物學基準GeneBench-Pro,GPT-5.6滿血版正確率僅三成

robot
摘要生成中
幣界網消息,OpenAI 發佈了計算生物學評測基準 GeneBench-Pro,用來測試 AI 智能體在面對基因組學和轉化醫學等複雜科研場景時的多步決策能力。新基準共包含 129 個問題(其中 82 個經過外部專家評審),通過電腦模擬生成具有明確因果關係的數據,防止模型通過走捷徑或迎合出題人偏好來作弊。測試結果顯示,頂尖模型在處理包含量化不確定性的科學推理時依然非常吃力。最強的 GPT-5.6 在開啟 Pro 模式下僅能達到 31.5% 的正確率,而 Claude Opus 4.8 的正確率僅有 16.0%。研究團隊指出,模型普遍存在「能發現異常但不會修正後續分析」的脫節現象,經常選錯統計方法或堅持錯誤的科研方向。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 3
  • 2
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
退潮的贝壳
· 2小時前
這分數看得我沉默了,Claude Opus才16%?
查看原文回復0
盐焗情绪盘
· 2小時前
129題裡82道專家審過,防作弊這塊確實用心了,但模型連統計方法都選錯,說明底層邏輯還是缺。
查看原文回復0
像素宇宙狸
· 2小時前
多步決策容易,但發現錯了還硬走下去,這不就是我做實驗的樣子嗎?
查看原文回復0