ARC賞財団は今週、ARC-AGI-3を公開し、その結果は非常に厳しいものだった。GoogleのGemini 3.1 Proが0.37%、OpenAIのGPT-5.4が0.26%、AnthropicのClaude Opus 4.6が0.25%、xAIのGrok-4.20はゼロに近いスコアだった。一方、人間はすべての環境を100%解決した。
ここには一つの本質的な議論がある。ARCの報告によると、デューク大学が作ったカスタムハーネスを使ったClaude Opus 4.6は、TR87という単一の環境バリアントで0.25%から97.1%に向上した。これはClaudeがARC-AGI-3全体で97.1%を獲得したことを意味しない。公式のベンチマークスコアは依然として0.25%だが、その変化は注目に値する。
AGIはもう到来しているのか? まったくの遠い話だと、新しいAIベンチマークが示唆
要点まとめ
NvidiaのCEOジェンセン・フアンは先週、レックス・フリードマンのポッドキャストに出演し、「我々はAGIを達成したと思う」と明言した。2日後、AI研究の最も厳格なテストで最新の人工汎用知能のベンチマークが発表されたが、すべての最先端モデルが1%未満のスコアにとどまった。
ARC賞財団は今週、ARC-AGI-3を公開し、その結果は非常に厳しいものだった。GoogleのGemini 3.1 Proが0.37%、OpenAIのGPT-5.4が0.26%、AnthropicのClaude Opus 4.6が0.25%、xAIのGrok-4.20はゼロに近いスコアだった。一方、人間はすべての環境を100%解決した。
これはトリビアやコーディングの試験、あるいは超難関の博士課程レベルの問題ではない。ARC-AGI-3は、AI業界がこれまで直面したことのない全く新しい挑戦だ。
このベンチマークは、フランソワ・ショレとマイク・クノップの財団によって作られたもので、社内ゲームスタジオを設立し、135のオリジナルインタラクティブ環境をゼロから作成した。目的は、AIエージェントを未知のゲームのような世界に投入し、ゼロから探索させ、何をすべきかを理解させ、計画を立てて実行させることだ。
それが5歳児でもできることのように思えるなら、問題の本質が見えてきた証拠だ。自分の能力がAIより優れているか試したい場合は、こちらのリンクから同じゲームをプレイできる。最初は奇妙に感じるかもしれないが、数秒後には簡単に慣れる。
これが「G」が示すものの最も明確な例だ。一般化能力とは、新しい知識(奇妙なゲームの仕組み)を事前の訓練なしに創り出せることを意味する。
以前のARCバージョンは静的な視覚パズルをテストしていた—パターンを見せて次を予測させるものだ。最初は難しかったが、計算能力と訓練を投入することで、ベンチマークはほぼ死に至った。2019年に導入されたARC-AGI-1は、テスト時の訓練と推論モデルに落ちた。ARC-AGI-2は約1年持ち、Gemini 3.1 Proが77.1%に到達した。研究所は訓練可能なベンチマークを飽和させるのが非常に得意だ。
バージョン3はそれを防ぐために特別に設計された。135の環境のうち110は非公開にされ、55はAPIテスト用の半公開、55は完全にロックされているため、データセットを丸暗記することはできない。未見の新しいゲームロジックをブルートフォースで突破することも不可能だ。
スコアは合格/不合格ではない。ARC-AGI-3は、財団が「RHAE(相対的人間行動効率)」と呼ぶ指標を採用している。基準は、二番目に優れた人間のパフォーマンスだ。AIが人間の10倍の行動を取ると、そのレベルでのスコアは1%となり、10%ではない。効率の悪さに対して二乗のペナルティが課される。無駄に動き回ったり、後戻りしたり、推測だけで答えを出そうとすると厳しく罰せられる。
月間の開発者プレビューで最も優れたAIエージェントは12.58%のスコアだった。公式APIを通じてテストされたフロンティアLLMsは、カスタムツールなしでは1%すら超えられなかった。一般の人間は事前訓練や指示なしで135の環境すべてを解決した。これが基準なら、現行のモデル群はそれをクリアできていない。
ここには一つの本質的な議論がある。ARCの報告によると、デューク大学が作ったカスタムハーネスを使ったClaude Opus 4.6は、TR87という単一の環境バリアントで0.25%から97.1%に向上した。これはClaudeがARC-AGI-3全体で97.1%を獲得したことを意味しない。公式のベンチマークスコアは依然として0.25%だが、その変化は注目に値する。
公式のベンチマークはエージェントにJSONコードを入力させるもので、視覚情報は含まれない。これは方法論的な欠陥か、あるいは今日のモデルが生の構造化データよりも人間に優しい情報処理に長けている証拠だ。ショレの財団はこの議論を認めているが、フォーマットの変更は行わない方針だ。
「フレーム内容の認識とAPIフォーマットは、ARC-AGI-3における最先端モデルの性能に制限を与えるものではない」と論文には記されている。つまり、モデルが「タスクを正しく見えない」ために失敗しているという考えを否定し、むしろ認識はすでに十分であり、真の差は推論と一般化にあると主張している。
AGIの現実性を問うこの検証は、誇大宣伝が全速力で進む週に行われた。フアンのコメントに加え、Armは新しいデータセンター用チップを「AGI CPU」と名付けた。OpenAIのサム・アルトマンは「ほぼAGIを構築した」と述べており、MicrosoftはすでにAGI達成後の進化形であるASI(人工超知能)を目指す研究所を宣伝している。これらの用語は、商業的に都合の良い意味に引き伸ばされているだけだ。
ショレの立場はより単純だ。普通の人間が指示なしでできることを、あなたのシステムができないなら、それはAGIではなく、非常に高価なオートコンプリートに過ぎない。
ARC賞2026は、Kaggleで開催される3つのコンペティションで合計200万ドルの賞金を提供している。すべての勝者のソリューションはオープンソース化が義務付けられている。時間は刻一刻と迫っており、現状では機械はまったく追いついていない。
デイリーデブリーフニュースレター
毎朝、最新のトップニュースとオリジナル特集、ポッドキャスト、動画などをお届けします。
あなたのメールアドレス
登録する!