幣界網消息,OpenAI 發佈了計算生物學評測基準 GeneBench-Pro,用來測試 AI 智能體在面對基因組學和轉化醫學等複雜科研場景時的多步決策能力。新基準共包含 129 個問題(其中 82 個經過外部專家評審),通過電腦模擬生成具有明確因果關係的數據,防止模型通過走捷徑或迎合出題人偏好來作弊。測試結果顯示,頂尖模型在處理包含量化不確定性的科學推理時依然非常吃力。最強的 GPT-5.6 在開啟 Pro 模式下僅能達到 31.5% 的正確率,而 Claude Opus 4.8 的正確率僅有 16.0%。研究團隊指出,模型普遍存在「能發現異常但不會修正後續分析」的脫節現象,經常選錯統計方法或堅持錯誤的科研方向。
OpenAI推出計算生物學基準GeneBench-Pro,GPT-5.6滿血版正確率僅三成