DeepMind 推出 AI 數學研究助手:多智能體框架超越 GPT-5.5 Pro 且解決先前無法解決的問題

根據東查比賽的監測,谷歌DeepMind已推出一款AI共同數學家,一個利用多代理架構的數學家互動研究平台。該系統在目前最具挑戰性的研究級數學基準FrontierMath Tier 4(解決了48個問題中的23個)上達到了47.9%的準確率,直接超越了由GPT-5.5 Pro創造的39.6%的先前記錄。該系統並未使用下一代基礎模型,而是採用了Gemini 3.1 Pro。模型本身在Tier 4上的準確率僅為19%,但在加入代理框架後,其性能翻了一倍以上。DeepMind為其配備了多層架構:在頂層,一個“項目協調者”將研究任務拆解成多個工作流程,然後分配給負責文獻檢索、編碼和推理的子代理。生成的證明必須經過多個“審查代理”的審核流程,才能提交。這種繁重的架構展示了通過協調提取的增量能力,可能超過了通過升級模型在高階數學推理中的獲得。盲測由Epoch AI進行,為防止作弊,DeepMind團隊在整個過程中未看到問題,每個問題允許運行48小時。結果不僅登頂排行榜,還解決了此前所有模型都卡住的三個問題。儘管被稱為助手,它的功能更像是一位富有創意的同事。群論專家Marc Lackenby在實際研究中使用它來解決來自Kourovka筆記本的一個公開猜想。有趣的是,系統提出的初始策略被其自身的審查代理標記為“有缺陷”,但Lackenby認出了其中隱藏的巧妙想法,自己填補了空白,最終完成了證明。目前,這款AI共同數學家僅供少數數學家進行內部測試。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆