シリコンバレーのトップ資金が集団で賭け！モルガン・スタンレーの万字に及ぶ詳細解説 AIの次なる最先端——「ワールドモデル」

2026-03-23 06:09:43

大規模モデルは「言語」という道を今日まで歩んできたが、その境界はますます明確になっている：それらは文章の作成、検索、修正、プログラミングに長けているが、三次元空間や時間の進化、物理的制約に問題が及ぶと、既存のパラダイムは苦戦し始める。モルガン・スタンレーは次の成長段階を「世界モデル」に賭けている——AIに理解、シミュレーション、環境内での意思決定を学習させることだ。これにより、ロボットや自動運転だけでなく、ゲーム、デザイン、映像制作などのデジタルコンテンツ産業も再構築される。

追風取引台によると、モルガン・スタンレー北米チームの株式アナリストAdam Jonasは最新レポートで率直に書いている：「AIは言語を超え、物理世界を理解し、シミュレートし、ナビゲートするモデルへと進化している。」この言葉の裏には次の競争の本質がある：誰のチャットが人に似ているかではなく、誰が現実世界の法則を圧縮し、内部表現に落とし込み、それをインタラクティブな「想像エンジン」に変えられるかだ。

**レポートが示す証拠は遠大な未来像ではなく、すでに進行中のエンジニアリング実践に基づいている：**WaymoはDeepMind Genie 3を基盤とした世界モデルを使い、「数十億マイル」の仮想走行テストを行った；MicrosoftはMuseを用いて1997年の『Quake II』を「全AIレンダリング、プレイ可能な」バージョンにした；Robloxも自社開発の世界モデルを用いた没入型環境生成や自然言語によるゲームの反復研究を公開している。大手企業（DeepMind、Meta、Microsoft、Tesla、NVIDIA）も取り組み、新興企業も人材と資金を争っている。

さらに注目すべきは、モルガン・スタンレーがこの資料で焦点を当てているのは二つの新興企業：李飛飛のWorld Labsは「生成とナビゲーションが可能な3D世界」の構築を目指し、杨立昆のAMI Labsは「効率的な潜在空間表現を学習し予測と推論を行う」ことに注力している。これら二つの路線の背後にある共通の課題は何か：AIはどのような形で「世界を理解」すべきか、そしてその理解がデモから実用へと進化するのはいつかだ。

言語から物理へ：世界モデルが補うべきはLLMの硬い短所

レポートは「物理世界」をより難しい戦場として描いている：物質、熱力学、流体、光などの法則に制約され、絶えず変化する三次元空間で動作している。LLMの訓練対象は主にテキストとその変種であり、ホワイトカラーのタスク（コーディング、検索、執筆）には強いが、「次の瞬間何が起こるか」「この行動がもたらす結果は何か」といった問いに対しては、必要なのは大量のコーパスではなく、長期的に一貫性のある環境表現と推論能力だ。

したがって、世界モデルは「内部で利用可能な環境表現」と定義される：それは目の前の状況を再現するだけでなく、状態を前方に進め、行動の条件変化に応じて異なる未来の分岐を示す——つまり、AIの「想像エンジン」の比喩である。

世界モデルは一つのものではない：五つの主流路線が並行

モルガン・スタンレーは現状のアプローチを大まかに分類し（境界は次第に曖昧になると強調）：

インタラクティブ・アクション条件付き世界モデル：例として「学習されたゲームエンジン」、環境はエージェントの行動に応じてリアルタイムに変化（例：DeepMind Genie）。
一貫性のある3D世界生成器：空間の幾何学的一貫性と多視点探索を重視（例：World Labs Marble）。
抽象表現／非生成モデル：ピクセルレベルの画面生成を追わず、より高次の潜在空間構造とダイナミクスを予測し推論（例：Meta V-JEPA、AMI Labs）。
予測型生成世界モデル：次のフレームや次の状態を予測し、計画や推論に用いる（例：Wayve GAIA、NVIDIA CosmosのPredict）。
物理制約を持つシミュレーションデータエンジン：世界モデルとシミュレーション／物理エンジン、データパイプラインを結びつけ、ロボット訓練用の「物理的一貫性のある」合成データを生成（例：NVIDIA CosmosのTransfer）。

この分類には現実的な意義がある：同じ「世界モデル」と呼ばれても、「探索可能な世界を生成する」ものと、「世界を計算可能な状態に圧縮する」ものでは、製品形態や計算資源、商業化の道筋が異なる。

ゲームとコンテンツ制作にまず適用：代替エンジンは魅力的だが、すぐには実現しない

ゲームはレポートで最も「直感的」なユースケース：少ないヒントからインタラクティブな環境を生成でき、コンテンツ制作の速度は別次元に引き上げられる可能性がある。MicrosoftのMuseによるプレイ可能な『Quake II』はその一例だ——従来のエンジンに頼らず、モデルがプレイヤーの入力をもとに各フレームを予測する。

しかし、モルガン・スタンレーのゲーム分析チーム（Matt Costのフレームワークを引用）によると、長期的には二つのシナリオが考えられる：既存の大手がAIをツールチェーンに組み込み「適応」させるか、あるいは新たなパラダイムに取って代わられるか。後者はより簡単に見える——なぜなら、今日のモデルはすでに「自然言語で遊べる世界を生成」できるからだ。

ただし、難点はその先にある：計算速度とコストは解決可能かもしれないが、「メタシステムの遅延」や「決定性、記憶、更新」といった問題は、世界モデルのパラダイム下では依然として難題だ。これらの制約は短期的には既存プレイヤーにウィンドウを与えるが、長期的な脅威は依然として存在する。

自動運転とロボットはより実用的：仮想世界を「データ補完」と「先行思考」に活用

自動運転の狙いは明確：危険、希少、コスト高な「エッジケース」を仮想空間に移し、大規模にシミュレーションすることだ。レポートはWaymoがDeepMind Genie 3を基盤とした世界モデルを使い、「数十億マイル」の仮想運転テストを行い、稀なシナリオでの性能を検証した例を挙げている——これらは実道路では遭遇しにくい、あるいはリスクが高すぎる場面だ。

ロボット側もエンジニアリング的な観点から論じられる：世界モデルは二つの課題を解決する可能性がある——訓練データ量の削減と行動前の推論。研究例として、世界モデルを用いて生成したデータでロボットを訓練し、実際のインタラクションデータと同等の効果を得られることも示されている。ただし、モルガン・スタンレーは境界を明確にし、短期的には世界モデルとシミュレーションデータは現実データの補完にとどまり、置き換えにはならないと指摘している。

**最も難しいのは「接触と摩擦」の微細な物理量：**レポートは例を挙げて強調している。微小な力の作用、アクチュエータの新旧差、表面摩擦や材料の微細な変化、関節の静摩擦など、これらが「シミュレーションと現実」のギャップを大きくする。

最も困難なのは「長期の安定性」と「制御性」：いくつものハードル

レポートは具体的かつ厳しい課題を列挙している：

誤差の蓄積と時間的ドリフト：長時間のインタラクションでは、物体の漂移や形状変化、物理ルールの逸脱が起きやすい。Genie 3は「数分間」の連続インタラクションしかサポートできていない。
制御の不十分さ：映像が美しくても、動作空間が基本的な移動だけでは、製品価値は限定的。
多エージェントと社会的ダイナミクス：複数の人や車、ロボットが同時に相互作用する状況は、単一カメラの追従よりも遥かに難しい。DeepMindもこれをGenie 3の難点の一つと指摘。
データの規模と多様性：特にロボット分野では、実センサーからのデータ収集は高コストかつ遅い。
統一基準の欠如：長時間のインタラクションの質をどう測るかの標準がなく、デモやタスクの評価に頼ることが多い。

これらの制約は、現実的なペースを決めている。世界モデルはまず「誤差許容度が高く、反復が速い」デジタルコンテンツ分野で普及し、その後、物理的な一貫性が求められる産業へと浸透していくと考えられる。

李飛飛の賭け：AIに「三次元空間を理解させる」

モルガン・スタンレーはWorld Labsを「一貫性のある3D世界生成」の代表例として位置付けている。同社は李飛飛とチームが2023年に設立し、2024年に姿を現した。主力製品のMarbleは2025年11月に公開され、「テキスト、画像、短動画、粗い3D入力」から「持続可能で探索可能な」三次元環境を生成し、編集や拡張も可能だ。

レポートが示す機能は、創作や生産向けの作業台のようなもので、生成後の物体の削除や「Chisel」を使った粗模型の詳細化、選択範囲の拡張、複数の世界を合成して大きなシーンを作る、外部の3Dソフトやエンジンにエクスポート、APIを通じた開発者向けの連携などを想定している。

また、産業ツールチェーンとの連携も重視し、Unreal EngineやUnityへの出力、NVIDIA Isaac Simなどのシミュレーションプラットフォームとの連携例も示している。建築設計やロボットシミュレーションなどのシナリオでの利用も紹介されている。

資金面でも、PitchBookの推計によると、World Labsは累計で約12.9億ドルの資金調達を行い、2026年2月のラウンド後の評価額は約54億ドルに達している。

杨立昆のもう一つの道：レンダリングをせず、構造だけ予測

AMI Labsのストーリーはより「研究的」なパラダイムに属する。2026年3月にYann LeCunとともに設立され、**JEPAフレームワークに基づき——ピクセルごとに再構築せず、遮蔽部分や未来の潜在表現（latent embeddings）を予測し、世界の進化を抽象的に学習する。**モルガン・スタンレーはこれを「抽象表現／非生成モデル」の一側面と位置付け、その潜在的価値は推論や計画、物理AIシステム（特にロボット）にあると強調している。

AMIの具体的な製品情報は少なく、想定される応用例としてはロボット、自動運転、映像理解・分析、AR/VRやスマートアシスタントなどが挙げられる。資金調達も、AMI Labsは10億ドル超のシードラウンドを完了し、PitchBookの評価は45億ドル以上とされている。

資金と人材の集積が進み、空間知能の競争は「加速」し始めている

このレポートの最も重要なメッセージは、特定のモデルやデモの詳細ではなく、産業の全体像の変化を示している点だ。DeepMind、Meta、Microsoft、Tesla、NVIDIA、そして新興のスタートアップたちが、世界モデルを「次段階の共通言語」として育てている。これが、ゲームや映像、デザインの生産性向上の理由となり、また自動運転やロボットの訓練・検証・計画を仮想空間に移す動きの背景にもなっている。

世界モデルは万能の即席部品ではない。レポートが示す結論は、すでに動き出しているシナリオのロードマップのようなものであり、長期的な課題——長時間の安定性、制御性、多エージェント対応、物理的詳細、評価体系——を解決できるかどうかが、次の段階の鍵となる。これらのハードルを工程の中で解決し、閉ループのエンジニアリングを完成させる者こそ、「デジタルから物理へ」の旅の未来を切り拓くことになる。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。