DeepMind 推出 AI 数学研究助手:多智能体框架超越 GPT-5.5 Pro 并解决以前无法解决的问题

根据东查贝廷的监测,谷歌DeepMind发布了一款AI合作数学家,这是一个利用多智能体架构的数学研究互动平台。该系统在目前最具挑战性的研究级数学基准测试FrontierMath Tier 4上达到了47.9%的准确率(解决了48个问题中的23个),直接超越了之前由GPT-5.5 Pro创下的39.6%的纪录。该系统并未使用下一代基础模型,而是采用了Gemini 3.1 Pro。模型本身在Tier 4上的准确率仅为19%,但通过加入智能体框架,其性能翻了一番以上。DeepMind为其配备了多层架构:在顶层,一个“项目协调员”将研究任务拆分成多个工作流程,然后分发给负责文献检索、编码和推理的子智能体。生成的证明必须经过多个“审查智能体”的审查流程,才能提交。这种繁重的架构显示,通过协作提取的渐进能力有可能超过通过升级模型在顶级数学推理中的提升。盲测由Epoch AI进行,为防止作弊,DeepMind团队在整个过程中未看到题目,每个题目允许运行48小时。结果不仅登顶排行榜,还解决了之前所有模型都难以攻克的三个问题。虽然被称为助手,但它的功能更像一个富有创造力的同事。群论专家Marc Lackenby在实际研究中使用它解决了来自Kourovka笔记本的一个公开猜想。有趣的是,系统提出的初始策略被其自身的审查智能体标记为“有缺陷”,但Lackenby识别出隐藏在被拒绝方案中的巧妙想法,自己补充了空缺,最终完成了证明。目前,这款AI合作数学家仅对少数数学家进行内部测试。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论