根據東查比賽的監測，谷歌DeepMind已推出一款AI共同數學家，一個利用多代理架構的數學家互動研究平台。該系統在目前最具挑戰性的研究級數學基準FrontierMath Tier 4（解決了48個問題中的23個）上達到了47.9%的準確率，直接超越了由GPT-5.5 Pro創造的39.6%的先前記錄。該系統並未使用下一代基礎模型，而是採用了Gemini 3.1 Pro。模型本身在Tier 4上的準確率僅為19%，但在加入代理框架後，其性能翻了一倍以上。DeepMind為其配備了多層架構：在頂層，一個“項目協調者”將研究任務拆解成多個工作流程，然後分配給負責文獻檢索、編碼和推理的子代理。生成的證明必須經過多個“審查代理”的審核流程，才能提交。這種繁重的架構展示了通過協調提取的增量能力，可能超過了通過升級模型在高階數學推理中的獲得。盲測由Epoch AI進行，為防止作弊，DeepMind團隊在整個過程中未看到問題，每個問題允許運行48小時。結果不僅登頂排行榜，還解決了此前所有模型都卡住的三個問題。儘管被稱為助手，它的功能更像是一位富有創意的同事。群論專家Marc Lackenby在實際研究中使用它來解決來自Kourovka筆記本的一個公開猜想。有趣的是，系統提出的初始策略被其自身的審查代理標記為“有缺陷”，但Lackenby認出了其中隱藏的巧妙想法，自己填補了空白，最終完成了證明。目前，這款AI共同數學家僅供少數數學家進行內部測試。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

熱門話題
查看更多
#
股票交易挑戰最高贏17000U
1616.79萬熱度
#
美伊協議草案
28.33萬熱度
#
交易CFD送黃金
302.85萬熱度
#
HYPE市值超越DOGE
1263.42萬熱度
#
PlatinumCard作者專屬
15.42萬熱度

DeepMind 推出 AI 數學研究助手：多智能體框架超越 GPT-5.5 Pro 且解決先前無法解決的問題

熱門話題

股票交易挑戰最高贏17000U

美伊協議草案

交易CFD送黃金

HYPE市值超越DOGE

PlatinumCard作者專屬

已置頂