Mythos 5 讓通用博士追上頂尖專家,但還當不了自主科學家

據動察 Beating 監測,Anthropic 在 Claude Fable 5 與 Claude Mythos 5 系統卡中披露,Mythos 5 在生物安全評估中展現出很強的專家輔助能力。在一場植物病理紅隊演練中,6 位生物學博士分別與大模型專家配對,使用 Mythos 5 設計針對假想工程化農業病原體的端到端生物抗性方案。其中 3 支隊伍包含植物病理專家,另外 3 支隊伍由通用微生物學博士組成。 結果顯示,在 16 小時內,3 支通用博士隊中有 2 支在科學質量和可行性上超過全部 3 支專家隊。專家評審估算,如果沒有 AI 工具,完成這些策略和實施協議通常需要 40 至 95 個工作日,平均約 72.5 個工作日。Anthropic 認為,這是 Mythos 5 接近 CB-2 風險門檻的最強單項證據之一,說明模型在部分任務上已經能讓通用研究人員獲得接近世界級專家的領域知識支持。 但這並不等於 Mythos 5 已經能自主完成前沿科研。Anthropic 同時指出,模型仍然依賴人類專家篩選思路,開放式構思能力偏弱,容易把既有文獻重新組合成複雜方案,卻很少提出真正新穎的路線;它還傾向於順著用戶給出的錯誤框架繼續推進,即使發現方案缺陷,也可能繼續執行。 這一判斷也與 CUSP 科學預測基準相互呼應。CUSP 覆蓋 4760 個科學事件,評估模型對科研進展的可行性判斷、機制識別、方案生成和時間預測。結果顯示,GPT-5.4 在四選一機制識別題上達到 81.9%,Claude S4.5 為 72.4%,但在判斷科學進展是否會真正實現的二分類任務上,各模型準確率僅為 45.3% 至 51.9%,接近隨機猜測。換句話說,當前大模型已經很擅長補全局部科研步驟,但仍不可靠地判斷哪些科學路線真正會成功。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆