null文 | アルファコミュニティAI大規模モデルの能力は、ある面では一般人を超えています。例えば、プログラミングや数学です。報告によると、Anthropic内部ではほぼ100％のAIプログラミングが実現されており、GoogleのGemini Deep ThinkはIMO 2025で6問中5問を解き、金メダルレベルに達しています。しかし、視覚推理に関しては、レベルの高いGemini 3 Proでさえ、BabyVisionという視覚推理能力を測るベンチマークテストで、3歳児のレベルにとどまっています。なぜ大規模モデルはプログラミングや数学に強いのに、視覚推理では弱いのか？それは、その「思考方式」に制限があるためです。視覚言語モデル

MarsBitNews

2026-04-23 10:10:00

null

文 | アルファコミュニティ

AI大規模モデルの能力は、ある面では一般人を超えてきている、例えばプログラミングや数学。報告によると、Anthropic内部ではほぼ100％のAIプログラミングが実現されており、GoogleのGemini Deep ThinkはIMO 2025で6問中5問を解き、金牌レベルに達している。

しかし、視覚推理に関しては、たとえレベルの高いGemini 3 Proでも、基礎視覚推理能力を測るベンチマークBabyVisionでは3歳児のレベルにとどまっている。

なぜ、大規模モデルはプログラミングや数学では強いのに、視覚推理では弱いのか？それは、その「思考方式」に制限があるためだ。視覚言語モデル (VLM) は、視覚入力をまず言語に変換し、その後テキストに基づく推理を行う必要があるが、多くの視覚タスクは文字で正確に記述できないため、モデルの視覚推理能力が低下してしまう。

Google DeepMindで14年働いたAndrew Daiは、AppleのAI専門家Yinfei Yangと共同で、Elorian AIという会社を設立した。彼らの目標は、モデルの視覚推理能力を「子供レベル」から「成人レベル」へ引き上げ、モデルに「視覚空間」内で原生的に思考する能力を持たせ、物理世界におけるAGIを目指すことだ。

Elorian AIは、Striker Venture Partners、Menlo Ventures、Altimeterなどの共同リード投資による5500万ドルのアーリーファンディングを獲得し、49 PalmsやJeff Deanを含むトップAI科学者たちも出資している。

多模態モデルの先駆者、視覚モデルに推論能力を持たせたい

中国出身のAndrew Daiは、ケンブリッジ大学で計算機科学の学士、エディンバラ大学で機械学習の博士号を取得。博士在学中にGoogleでインターンを経験し、2012年にGoogleに入社、14年間勤務した後に起業。

画像出典：Andrew DaiのLinkedIn

Googleに入ってすぐ、彼はQuoc V. Leと共同で、言語モデルの事前学習と監督微調整に関する最初の論文『Semi-supervised Sequence Learning』を書いた。この論文はGPTの誕生の基礎を築いた。彼のもう一つの基礎的な論文は『Glam: Efficient scaling of language models with mixture-of-experts』で、これが現在の主流MoEアーキテクチャの道を開いた。

画像出典：Google

Google在籍中、彼はPlamからGemini1.5、Gemini2.5まで、ほぼすべての大規模モデルの訓練に深く関わった。Jeff Deanの指示のもと、2023年からGeminiのデータ部門（合成データを含む）のリーダーを務め、そのチームは数百人規模に拡大している。

画像出典：Yinfei YangのLinkedIn

Andrew Daiと共に起業したのはYinfei Yangで、彼はGoogle Researchで4年間、多模態表現学習に従事し、その後Appleに移り、多模態モデルの研究開発を担当した。

画像出典：arxiv

彼の代表的な研究成果は『Scaling up visual and vision-language representation learning with noisy text supervision』で、多模態表現学習の発展に寄与した。

Elorian AIの共同創業者には、Seth Neelもいる。彼はハーバード大学の助教授（AP）であり、データとAI分野の専門家だ。

なぜ、Elorian AIの共同創業者たちが書いた革新的な論文について議論するのか？それは、彼らがやろうとしているのは、エンジニアリングの最適化ではなく、基盤アーキテクチャのパラダイムシフトを行い、AIをテキスト理解から視覚理解へと進化させることだからだ。

現在のAIモデルは、テキストベースのタスクでは優秀だが、最先端の多模態大規模モデルでさえも、最も基本的な視覚のアライメント (Visual grounding) ではつまずく。

例えば、ある部品をぴったりと機械装置に組み込む、より正確に、より効率的に動作させるにはどうすればいいか？このような空間物理のタスクは、小学生でも簡単にできるが、現行の多模態大規模モデルには難しい。

これは生物学からヒントを得る必要がある。人間の脳において、視覚は多くの思考過程を支える基盤であり、人間は視覚と空間推理の能力を、言語や論理推理よりもはるかに古くから持っている。

例えば、迷路を解く方法を言葉で説明すると混乱するが、スケッチを描けば一瞬で理解できる。

また、鳥の例もそうだ。言語を使わなくても、視覚を通じて地理的特徴を認識し、推理し、世界中を渡ることができる。これは、機械の推理能力を本当に進化させるには、視覚が最も有望な進化の方向性であることを示す強いシグナルだ。

では、もしモデルの構築の最初から、この生物学的な視覚本能をAIの遺伝子に刻み込み、「テキスト、画像、動画、音声を同時に理解・処理できる原生的な多模態モデル」を作り出せたらどうなるか？それにより、モデルは視覚理解能力を持つことになる。Andrew Daiとチームは、「生まれながらの通感者」を構築し、機械に「世界を見る」だけでなく、「世界を理解させる」ことを目指している。

Andrew Daiとチームにとって、真に「物理世界」を深く理解することこそ、次世代の機械知能の飛躍と、最終的に「視覚汎用人工知能 (Visual AGI)」に到達するための鍵だ。

推論後置型のVLMは、視覚推理への正しい道ではない

これまでにも、これを実現しようとしたチームはあった。実際、Andrew Daiは以前、Geminiチームに在籍しており、世界的に見ても多模態分野の最先端チームだった。しかし、従来の多模態モデルは、依然としてVLM（視覚言語モデル）を中心にしている。その論理は「二段階」のアプローチに基づいている：まず視覚入力を言語に変換し、その後テキストに基づく推理（外部ツールの呼び出しを補助的に行うこともある）。

しかし、後置の推論には本質的な制約がある。一つはモデルの幻覚を生みやすいこと、もう一つは、多くの視覚タスクは文字で正確に記述できないことだ。

さらに、NanoBananaなどの視覚生成モデルは、多模態生成に優れるが、生成能力と推論能力は同じではない。これらは生成前の「思考」においても、依然として言語モデルに依存しており、原生的な推論能力ではない。

真に視覚の空間、構造、関係性の複雑さを洞察できるモデルを開発するには、根底からの技術革新が必要だ。

では、どう革新すればいいのか？Elorian AIの創始者たちは、多模態分野に長く浸かっており、そのアプローチは：多模態訓練と、多模態推論に特化した新しいアーキテクチャを深く融合させることだ。静止した画像を入力とする従来のやり方を捨て、モデルに視覚表現 (Visual representations)と直接対話・操作させ、その構造や関係、物理的制約を自主的に解析させる。

もちろん、もう一つの重要な要素はデータだ。これらのモデルの性能と成功は、データの質、混合比、出所、多様性に大きく依存している。

Andrew Daiは、データの質や多様性に重きを置き、視覚空間における推論の連鎖を再構築し、大規模かつ深く合成データを用いていると述べている。

これらの努力を総合すれば、単なる視覚の「感知」を超え、高次の視覚「推理」へと進化する新たなAIシステムが生まれる。

このAIシステムは、視覚推理の基盤モデルとなり得る。すなわち、高度に汎用性がありながら、特定の能力において極めて優れたモデル、つまり視覚推理に特化したモデルだ。

この基盤モデルは、応用範囲も広いはずだ。

まず、ロボット分野では、強力なシステムの基底神経中枢となり、未知の環境での自律作業を可能にする。

例えば、危険な環境で突発的な安全事故を処理するロボット。これには、迅速かつ正確な瞬間判断が求められる。深い推論能力を持つ基盤モデルがなければ、ボタンを無闇に押したりレバーを操作したりすることはできない。しかし、推論能力が高いモデルなら、「このパネルを操作する前に、まずこのレバーを引いて安全装置を作動させるべきだ」と考えることもできる。

また、災害管理の面では、視覚推理を持つモデルは、衛星画像を分析して森林火災を監視・予防できる。工学分野では、複雑な視覚図面やシステム原理図を正確に理解できる。この能力の意義は、物理世界の運用法則と純粋なコードの世界は本質的に異なるため、単にコードを書くだけでは飛行機の翼を設計できないことにある。

しかし、現状ではElorian AIのモデルや能力はまだ紙面上の段階だ。彼らは2026年に、視覚推理分野でSOTA（最先端）レベルのモデルをリリースする計画であり、その成果が宣言通りかどうかを検証する予定だ。

AIが本当に「視覚推理」能力を持つようになったら、物理世界はどう変わるのか？

AIが現実の物理世界を理解し、影響を与えるための技術は、すでに何度も進化してきた。

従来のCV（コンピュータビジョン）時代の画像認識から、生成式AIの画像生成・多模態モデル、そして世界モデルへと、物理世界の理解は深まっている。

視覚推理の基盤モデルは、さらに一歩進む可能性が高い。なぜなら、視覚推理を実現できれば、AIは物理世界をより深く理解し、より高次の機械知能を実現できるからだ。

想像してみてほしい。深い理解と精密な操作を備えたモデルが、具現化知能（embodied intelligence）やAIハードウェア産業を「充電」し、その応用範囲を大きく拡大させる。例えば、信頼性の高い工業生産や医療・介護分野でのロボットの活用、またはウェアラブルデバイスをより賢い個人アシスタントに変えることだ。

ただし、これらの技術の根底にはやはりデータがある。Andrew Daiも述べたように、データの質、混合比、出所、多様性がモデルの性能を左右する。

物理AIの分野では、中国の企業は、モデルやデータの面で、テキスト大規模モデルに比べて世界の最先端に近づいている。データと応用シナリオの豊富さを武器に、より早く進化すれば、具現化知能やAIハードウェアの分野で、産業、医療、家庭など多方面でリードできる可能性が高い。もちろん、世界クラスの企業に成長するチャンスもある。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。