据动察 Beating 監測，谷歌 DeepMind 發布 AI co-mathematician，一個供數學家使用的多 Agent 交互式研究工作台。該系統在目前最難的研究級數學基準 FrontierMath Tier 4 上拿下 47.9% 的正確率（解出 23/48 題），直接超過了此前最高紀錄 GPT-5.5 Pro 的 39.6%。這套系統沒有用新一代底座，直接用的是 Gemini 3.1 Pro。這個模型自己裸跑 Tier 4 只有 19%，加了 Agent 框架後成績翻倍還多。DeepMind 給它搭了一套多層架構：頂層一個「項目協調人」把研究任務拆分成多條工作流，往下分發給文

MarsBitNews

2026-05-09 12:59:17

据动察 Beating 监测，谷歌 DeepMind 发布 AI co-mathematician，一个供数学家使用的多 Agent 交互式研究工作台。
このシステムは、現在最も難しい研究レベルの数学基準である FrontierMath Tier 4 で正答率47.9％（23/48 問を解答）を達成し、
これまでの最高記録 GPT-5.5 Pro の39.6％を直接上回った。
このシステムは新世代の基盤モデルを使用せず、直接 Gemini 3.1 Pro を採用している。
このモデルは Tier 4 だけで単独で動かすと19％だが、エージェントフレームワークを追加すると成績は倍以上に向上する。
DeepMind はこれに多層構造を構築した：最上層に「プロジェクトコーディネーター」があり、研究課題を複数のワークフローに分割し、
文献検索、コード作成、推論担当のサブエージェントに配布する。
証明は複数の「レビュアーエージェント」からなる審査会を経て承認され、提出される。
この重厚なフレームワークは示している：トップレベルの数学的推論において、編成による能力の増加は、モデルの世代交代よりも大きい可能性がある。
盲検テストは Epoch AI によって実行され、チートを防ぐために DeepMind チームは問題を見ることなく、各問題に最大48時間を許可した。
結果はトップに立つだけでなく、これまでの全モデルが解けなかった3問も解答した。
名は副手だが、むしろ発想力豊かな同僚のような存在だ。
群論の専門家 Marc Lackenby は、実研究の中でこれを使い、 Kourovka ノートにある公開された推測を解明した。
面白いことに、システムが最初に提示した戦略は自己の審査エージェントに「欠陥あり」と判断されたが、
Lackenby はその中に巧妙なアイデアを見出し、自ら補完して証明を完成させた。
現在、AI co-mathematician は少数の数学者に対してクローズドβテストを行っている。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。