AGIはもう到来しているのか？まったくの遠い話だと、新しいAIベンチマークが示唆

Question

#### 要点まとめ* ARC-AGI-3は、AGIの主張と現実の間に巨大なギャップがあることを示しており、最先端のAIモデルのスコアは1%未満であるのに対し、人間は完璧なパフォーマンスを達成している。* このベンチマークは真の汎用性を測るもので、エージェントが未知の環境で探索、計画、学習をゼロから行う能力を要求する。記憶されたパターンの再現ではない。* 業界の誇大宣伝にもかかわらず、現行のAIシステムは依然としてAGIからは遠く、若い人間が自然に示す推論や適応力にはほど遠い。NvidiaのCEOジェンセン・フアンは先週、レックス・フリードマンのポッドキャストに出演し、「我々はAGIを達成したと思う」と明言した。2日後、AI研究の最も厳格なテストで最新の人工汎用知能のベンチマークが発表されたが、すべての最先端モデルが1%未満のスコアにとどまった。ARC賞財団は今週、ARC-AGI-3を公開し、その結果は非常に厳しいものだった。GoogleのGemini 3.1 Proが0.37%、OpenAIのGPT-5.4が0.26%、AnthropicのClaude Opus 4.6が0.25%、xAIのGrok-4.20はゼロに近いスコアだった。一方、人間はすべての環境を100%解決した。これはトリビアやコーディングの試験、あるいは超難関の博士課程レベルの問題ではない。ARC-AGI-3は、AI業界がこれまで直面したことのない全く新しい挑戦だ。このベンチマークは、フランソワ・ショレとマイク・クノップの財団によって作られたもので、社内ゲームスタジオを設立し、135のオリジナルインタラクティブ環境をゼロから作成した。目的は、AIエージェントを未知のゲームのような世界に投入し、ゼロから探索させ、何をすべきかを理解させ、計画を立てて実行させることだ。それが5歳児でもできることのように思えるなら、問題の本質が見えてきた証拠だ。自分の能力がAIより優れているか試したい場合は、こちらのリンクから同じゲームをプレイできる。最初は奇妙に感じるかもしれないが、数秒後には簡単に慣れる。![](https://img-cdn.gateio.im/social/moments-c53df22efd-be5761a04c-8b7abd-ceda62)これが「G」が示すものの最も明確な例だ。一般化能力とは、新しい知識（奇妙なゲームの仕組み）を事前の訓練なしに創り出せることを意味する。以前のARCバージョンは静的な視覚パズルをテストしていた—パターンを見せて次を予測させるものだ。最初は難しかったが、計算能力と訓練を投入することで、ベンチマークはほぼ死に至った。2019年に導入されたARC-AGI-1は、テスト時の訓練と推論モデルに落ちた。ARC-AGI-2は約1年持ち、Gemini 3.1 Proが77.1%に到達した。研究所は訓練可能なベンチマークを飽和させるのが非常に得意だ。バージョン3はそれを防ぐために特別に設計された。135の環境のうち110は非公開にされ、55はAPIテスト用の半公開、55は完全にロックされているため、データセットを丸暗記することはできない。未見の新しいゲームロジックをブルートフォースで突破することも不可能だ。スコアは合格/不合格ではない。ARC-AGI-3は、財団が「RHAE（相対的人間行動効率）」と呼ぶ指標を採用している。基準は、二番目に優れた人間のパフォーマンスだ。AIが人間の10倍の行動を取ると、そのレベルでのスコアは1%となり、10%ではない。効率の悪さに対して二乗のペナルティが課される。無駄に動き回ったり、後戻りしたり、推測だけで答えを出そうとすると厳しく罰せられる。 月間の開発者プレビューで最も優れたAIエージェントは12.58%のスコアだった。公式APIを通じてテストされたフロンティアLLMsは、カスタムツールなしでは1%すら超えられなかった。一般の人間は事前訓練や指示なしで135の環境すべてを解決した。これが基準なら、現行のモデル群はそれをクリアできていない。ここには一つの本質的な議論がある。ARCの報告によると、デューク大学が作ったカスタムハーネスを使ったClaude Opus 4.6は、TR87という単一の環境バリアントで0.25%から97.1%に向上した。これはClaudeがARC-AGI-3全体で97.1%を獲得したことを意味しない。公式のベンチマークスコアは依然として0.25%だが、その変化は注目に値する。公式のベンチマークはエージェントにJSONコードを入力させるもので、視覚情報は含まれない。これは方法論的な欠陥か、あるいは今日のモデルが生の構造化データよりも人間に優しい情報処理に長けている証拠だ。ショレの財団はこの議論を認めているが、フォーマットの変更は行わない方針だ。「フレーム内容の認識とAPIフォーマットは、ARC-AGI-3における最先端モデルの性能に制限を与えるものではない」と論文には記されている。つまり、モデルが「タスクを正しく見えない」ために失敗しているという考えを否定し、むしろ認識はすでに十分であり、真の差は推論と一般化にあると主張している。AGIの現実性を問うこの検証は、誇大宣伝が全速力で進む週に行われた。フアンのコメントに加え、Armは新しいデータセンター用チップを「AGI CPU」と名付けた。OpenAIのサム・アルトマンは「ほぼAGIを構築した」と述べており、MicrosoftはすでにAGI達成後の進化形であるASI（人工超知能）を目指す研究所を宣伝している。これらの用語は、商業的に都合の良い意味に引き伸ばされているだけだ。ショレの立場はより単純だ。普通の人間が指示なしでできることを、あなたのシステムができないなら、それはAGIではなく、非常に高価なオートコンプリートに過ぎない。ARC賞2026は、Kaggleで開催される3つのコンペティションで合計200万ドルの賞金を提供している。すべての勝者のソリューションはオープンソース化が義務付けられている。時間は刻一刻と迫っており、現状では機械はまったく追いついていない。### デイリーデブリーフニュースレター毎朝、最新のトップニュースとオリジナル特集、ポッドキャスト、動画などをお届けします。あなたのメールアドレス登録する！

AGIはもう到来しているのか？まったくの遠い話だと、新しいAIベンチマークが示唆

要点まとめ

デイリーデブリーフニュースレター

人気の話題

PreIPOsSeason2OpenAISubscription

GateDEXIntegratesWithRobinhoodChain

IsraelStrikesIranBTCPlunges

TSMCQ2NetProfitSurges77%

SummerCreationCamp

ピン留め

AGIはもう到来しているのか？ まったくの遠い話だと、新しいAIベンチマークが示唆

要点まとめ

デイリーデブリーフニュースレター

人気の話題

PreIPOsSeason2OpenAISubscription

GateDEXIntegratesWithRobinhoodChain

IsraelStrikesIranBTCPlunges

TSMCQ2NetProfitSurges77%

SummerCreationCamp

ピン留め

AGIはもう到来しているのか？まったくの遠い話だと、新しいAIベンチマークが示唆