据动察 Beating 监测,谷歌 DeepMind 发布 AI co-mathematician,一个供数学家使用的多 Agent 交互式研究工作台。 このシステムは、現在最も難しい研究レベルの数学基準である FrontierMath Tier 4 で正答率47.9%(23/48 問を解答)を達成し、 これまでの最高記録 GPT-5.5 Pro の39.6%を直接上回った。 このシステムは新世代の基盤モデルを使用せず、直接 Gemini 3.1 Pro を採用している。 このモデルは Tier 4 だけで単独で動かすと19%だが、エージェントフレームワークを追加すると成績は倍以上に向上する。 DeepMind はこれに多層構造を構築した:最上層に「プロジェクトコーディネーター」があり、研究課題を複数のワークフローに分割し、 文献検索、コード作成、推論担当のサブエージェントに配布する。 証明は複数の「レビュアーエージェント」からなる審査会を経て承認され、提出される。 この重厚なフレームワークは示している:トップレベルの数学的推論において、編成による能力の増加は、モデルの世代交代よりも大きい可能性がある。 盲検テストは Epoch AI によって実行され、チートを防ぐために DeepMind チームは問題を見ることなく、各問題に最大48時間を許可した。 結果はトップに立つだけでなく、これまでの全モデルが解けなかった3問も解答した。 名は副手だが、むしろ発想力豊かな同僚のような存在だ。 群論の専門家 Marc Lackenby は、実研究の中でこれを使い、 Kourovka ノートにある公開された推測を解明した。 面白いことに、システムが最初に提示した戦略は自己の審査エージェントに「欠陥あり」と判断されたが、 Lackenby はその中に巧妙なアイデアを見出し、自ら補完して証明を完成させた。 現在、AI co-mathematician は少数の数学者に対してクローズドβテストを行っている。
DeepMindがAI数学研究アシスタントを発表:マルチエージェントアーキテクチャがGPT-5.5Proを打ち負かし、以前「誰も解けなかった」難題も解明
据动察 Beating 监测,谷歌 DeepMind 发布 AI co-mathematician,一个供数学家使用的多 Agent 交互式研究工作台。
このシステムは、現在最も難しい研究レベルの数学基準である FrontierMath Tier 4 で正答率47.9%(23/48 問を解答)を達成し、
これまでの最高記録 GPT-5.5 Pro の39.6%を直接上回った。
このシステムは新世代の基盤モデルを使用せず、直接 Gemini 3.1 Pro を採用している。
このモデルは Tier 4 だけで単独で動かすと19%だが、エージェントフレームワークを追加すると成績は倍以上に向上する。
DeepMind はこれに多層構造を構築した:最上層に「プロジェクトコーディネーター」があり、研究課題を複数のワークフローに分割し、
文献検索、コード作成、推論担当のサブエージェントに配布する。
証明は複数の「レビュアーエージェント」からなる審査会を経て承認され、提出される。
この重厚なフレームワークは示している:トップレベルの数学的推論において、編成による能力の増加は、モデルの世代交代よりも大きい可能性がある。
盲検テストは Epoch AI によって実行され、チートを防ぐために DeepMind チームは問題を見ることなく、各問題に最大48時間を許可した。
結果はトップに立つだけでなく、これまでの全モデルが解けなかった3問も解答した。
名は副手だが、むしろ発想力豊かな同僚のような存在だ。
群論の専門家 Marc Lackenby は、実研究の中でこれを使い、 Kourovka ノートにある公開された推測を解明した。
面白いことに、システムが最初に提示した戦略は自己の審査エージェントに「欠陥あり」と判断されたが、
Lackenby はその中に巧妙なアイデアを見出し、自ら補完して証明を完成させた。
現在、AI co-mathematician は少数の数学者に対してクローズドβテストを行っている。