DeepMindがAI数学研究アシスタントを発表:マルチエージェントアーキテクチャがGPT-5.5Proを打ち負かし、以前「誰も解けなかった」難題も解明

据动察 Beating 监测,谷歌 DeepMind 发布 AI co-mathematician,一个供数学家使用的多 Agent 交互式研究工作台。
このシステムは、現在最も難しい研究レベルの数学基準である FrontierMath Tier 4 で正答率47.9%(23/48 問を解答)を達成し、
これまでの最高記録 GPT-5.5 Pro の39.6%を直接上回った。
このシステムは新世代の基盤モデルを使用せず、直接 Gemini 3.1 Pro を採用している。
このモデルは Tier 4 だけで単独で動かすと19%だが、エージェントフレームワークを追加すると成績は倍以上に向上する。
DeepMind はこれに多層構造を構築した:最上層に「プロジェクトコーディネーター」があり、研究課題を複数のワークフローに分割し、
文献検索、コード作成、推論担当のサブエージェントに配布する。
証明は複数の「レビュアーエージェント」からなる審査会を経て承認され、提出される。
この重厚なフレームワークは示している:トップレベルの数学的推論において、編成による能力の増加は、モデルの世代交代よりも大きい可能性がある。
盲検テストは Epoch AI によって実行され、チートを防ぐために DeepMind チームは問題を見ることなく、各問題に最大48時間を許可した。
結果はトップに立つだけでなく、これまでの全モデルが解けなかった3問も解答した。
名は副手だが、むしろ発想力豊かな同僚のような存在だ。
群論の専門家 Marc Lackenby は、実研究の中でこれを使い、 Kourovka ノートにある公開された推測を解明した。
面白いことに、システムが最初に提示した戦略は自己の審査エージェントに「欠陥あり」と判断されたが、
Lackenby はその中に巧妙なアイデアを見出し、自ら補完して証明を完成させた。
現在、AI co-mathematician は少数の数学者に対してクローズドβテストを行っている。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン