DeepMindがAI数学研究アシスタントを発表:マルチエージェントフレームワークがGPT-5.5 Proを超え、従来解けなかった問題を解決

ドンチャビーティングの監視によると、Google DeepMindはAI共同数学者をリリースしました。これは、多エージェントアーキテクチャを利用した数学者向けのインタラクティブ研究プラットフォームです。システムは、現在最も難しい研究レベルの数学ベンチマークであるFrontierMath Tier 4(48問中23問解答)で47.9%の正答率を達成し、以前の記録39.6%をGPT-5.5 Proによって直接上回りました。このシステムは次世代の基盤モデルを使用せず、代わりにGemini 3.1 Proを採用しました。モデル自体はTier 4でわずか19%の正答率でしたが、エージェントフレームワークを追加することで、その性能は2倍以上に向上しました。DeepMindはこれに多層構造を備えさせました:最上層には「プロジェクトコーディネーター」があり、研究タスクを複数のワークフローに分解し、それらを文献検索、コーディング、推論を担当するサブエージェントに配布します。生成された証明は、提出前に複数の「レビュエージェント」によるレビューを受ける必要があります。この重厚な枠組みは、オーケストレーションを通じて抽出される段階的な能力が、トップクラスの数学的推論モデルのアップグレードによって得られる能力を超える可能性を示しています。ブラインドテストはEpoch AIによって行われ、チートを防ぐためにDeepMindチームは質問内容を一切見ず、各質問には48時間の制限が設けられました。結果はリーダーボードのトップに立つだけでなく、これまで全てのモデルを悩ませてきた3つの問題も解決しました。助手と呼ばれることもありますが、実際にはより創造的な同僚のように機能します。群論の専門家Marc Lackenbyは、実際の研究でこれを使用し、クルーヴォルカノートブックの公開された予想を解決しました。興味深いことに、システムが最初に提案した戦略は自己のレビュエージェントによって「誤り」と指摘されましたが、Lackenbyはその中に隠された巧妙なアイデアを認識し、拒否された提案のギャップを埋めて最終的に証明を完成させました。現在、AI共同数学者は限定された数学者による内部テストのみで利用可能です。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン