Anthropic發布BioMysteryBench:5名專家都答不出的生物題,Claude Mythos能解出30%

robot
摘要生成中
AIMPACT 消息,4 月 30 日(UTC+8),據 動察 Beating 監測,Anthropic 發布 BioMysteryBench,一套 99 道題的生物信息學基準評測。題目由領域專家基於真實數據集(DNA/RNA 測序、蛋白質組學、代謝組學等)編寫,答案來自數據的客觀屬性或實驗驗證的元數據,不依賴研究者的主觀判斷。典型題目如:根據 RNA-seq 數據判斷實驗組敲除了哪個基因、從全基因組測序數據中推斷親子關係。 評測環境給 Claude 一個容器,預裝常用生信工具,可通過 pip 和 conda 自行安裝軟件,可訪問 NCBI、Ensembl 等公共數據庫下載參考基因組,只評最終答案,不限分析路徑。99 道題中,76 道至少有一名人類專家答對(人類可解),剩餘 23 道由最多 5 名領域專家嘗試後均未解出(人類困難)。 在人類可解題上,Claude Opus 4.6 準確率 77.4%,Mythos Preview 進一步提升。在 23 道人類困難題上,Sonnet 4.6 和更強的模型已能解出相當比例,Mythos Preview 達到 30%。軌跡分析顯示 Claude 有兩種主要策略:一是調用訓練數據中內化的跨論文知識,直接完成人類需要做元分析才能得出的推理;二是在不確定時同時跑多種分析方法,取多條證據鏈的交集。 可靠性分析揭示了一個微妙差異:人類可解題上,Opus 4.6 答對的題 86% 在 5 次嘗試中至少對 4 次,表現穩定;人類困難題上這一比例降至 44%,近半數正確答案只在 5 次中碰對 1 到 2 次,更像是碰巧走通了某條推理路徑。準確率差距背後,可靠性差距更能說明能力邊界在哪。 Genentech 和羅氏同期發布了設計思路相似的 CompBioBench(100 道計算生物學題),Claude Opus 4.6 在其中整體 81%、最難題 69%,與 BioMysteryBench 的結論相互印證。 (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆