「統一されたアーキテクチャ、データ体系、計算能力の支援が共同で推進されることで、世界モデルは今年、急速なブレークスルーを迎えるでしょう!」3月29日に開催された2026中関村フォーラム年会の専門フォーラム「AI未来フォーラム:ジャンプ・投資・共生」で、生数科技(シャンシュウ・テクノロジー)の創始者であり、清華大学人工知能研究院の副院長である朱軍が、上記の見解を示した。**どのように構築するか**その一方で、世界モデルの定義が拡大化され、曖昧化されています。「『世界モデル』の定義をさらに明確化する必要があります」と朱軍は述べました。現在、多くの研究が不完全です。たとえば、ある種のインタラクティブ動画生成手法は、本質的にはデジタル空間の再構築にまだ限られており、人とシステムの単方向のインタラクションに主に用いられるもので、実際の環境で学習し、アクションを実行する能力を備えていません。「世界モデル」は、マニフォールド空間の創始者である武偉(ウー・ウェイ)によって2種類に分けられます。1つはデジタル世界における世界モデルで、主に、よりリアルタイムなインタラクティブなインターフェースの構築に焦点が当てられています。もう1つは物理世界で用いられるもので、予測可能なロボットの“機械の脳”になります。「2種類の世界モデルを支える能力は一致しておらず、デジタル世界ではクリエイターの嗜好により多く迎合する必要があるのに対し、物理世界では、現実の物理やロボット操作を複製することが求められます。」自動運転と身体性インテリジェンスの例でいえば、自動運転は実車データを収集してデータのクローズドループを実現しますが、ロボットはデータのコールドスタートに直面します。武偉は、多くの企業が自動運転に似た方式でロボットを展開し、実環境で遠隔操作を行ってデータを収集する傾向があると分析します。データ品質は高いものの、モデル性能がパラメータ規模や計算資源投入の増加に伴って伸びる速度に関する問題があります。「世界モデルの学習に関しては、一人称視点のデータによる事前学習を用いることで、この問題を解決できます。」企業の経験から見ると、破壳ロボットの創始者であり、清華大学の交差情報研究院の助教授である許華哲は、100世帯でデータを収集しても、10000世帯へは汎化できないと指摘します。ロボットの事前学習は、一人称の動画で行い、本当の意味での汎化を提供する必要があります。具体的には、まず「何を行うのか/何を行わないのか」を定義し、そのうえでシステムを逆方向に反復させます。ハードウェア、運動制御なども含めます。たとえば、破壳ロボットの手は21自由度を実現できませんが、10のことを汎化して実行し、それからアップグレードを待ちます。朱軍は「統一された世界モデルのフレームワーク」を提案し、クロスモーダル生成と行動タスクを理論上で統一します。この統一は、エンジニアリング上の組み合わせではなく、構造レベルでの統一です。よりマクロな観点から言えば、デジタル世界でも物理世界でも、最終的には異なる形態のエージェントで構成されることになります。物理世界のエージェントには「身体」があり、世界モデルはその中核となる「知能の中枢」です。汎用の世界モデルを構築することは、大規模モデルの第一原理に立ち返ることができます。すなわち、拡張可能なアーキテクチャ、大規模データ、十分な計算能力です。朱軍は、世界モデルは統一アーキテクチャを採用すべきだと考えています。しかし、現在の主流手法は往々にしてモジュール化や断片化になっており、あるものは行動軌跡のフィッティングに注力し、あるものは予測に偏り、あるものは直接に制御戦略を学習します。**技術的ブレークスルー**世界モデル技術の可能性について語る際、清華大学の副教授である章明星は、多くの世界モデルのルートは言語モデルの能力に基づき、それをより多くのモーダルへと移転するものだと述べました。しかし、言語だけで物理世界をモデリングできるのか、それとも別の“浅い空間の言語”が必要なのでしょうか。現在、理論上の見解の相違が存在します。さらに、データ学習によってなのか、物理空間によってなのか、「物理の遠隔テレメトリ」を達成するのか、「第一人称視点」を得るのか。物理空間のモーダルや実現は、なお突破が必要です。具体的には、2026年の世界モデルで注目すべき技術的ブレークスルーは2つあります。武偉は、1つはリアルタイムの操縦・インタラクション能力であり、もう1つは世界モデルの後学習(後段の学習)だと述べました。「特に強化学習とオンライン学習」について、許華哲が具体的に説明しました。強化学習を100台、1,000台、1万台のロボットへと拡張しても、成功率を損なうことなく、人と同じような速度に到達できることです。さらに、身体性インテリジェンスを展開後でも、奇妙なタスクに対して素早くオンライン学習できるようにします。動画の大規模モデルに関する長期的な蓄積を踏まえ、朱軍は、より明確な技術ロードマップを提案しました。基盤層では、Diffusion Transformer(U-ViT)を統一の基座アーキテクチャとして用います。ピクセル空間でのデコードは、Vidu動画生成モデルに対応し、デジタルコンテンツ制作を支えます。行動空間でのデコードは、物理世界の身体的インタラクションを支えます。これは、同じ基座モデルが、デジタル世界の生成能力と、物理世界の行動能力の両方を同時に支えられることを意味します。紹介によれば、生数科技は、多タスクのシナリオにおける能力を検証しました。たとえば、次の通りです。验证码操作タスク——メカニカルアームで人間のマウス操作を模擬し、画面認識と精密なクリックを実現します。チェス等のゲームの意思決定タスク——長期計画と多段推論が関わり、認知、予測、意思決定の協調が必要です。柔軟な物体操作——複雑で不規則な物体に直面しても、安定した把持を実現します。統一アーキテクチャは、新たな発展の道筋をもたらします。実験観察により、2つの重要な現象が得られたと朱軍は述べました。1つは、従来のVision-Language-Action(VLA、ビジョン-言語-アクション)のルートと比べて、データ利用効率が桁(オーダー)単位で向上することです。2つ目は、多タスクの汎化能力が強化され、統一モデルの下で50以上のタスクにおいて高効率に汎化を実現でき、しかも性能が低下せずむしろ向上することです。対照的に、従来のVLAモデル(たとえばPI0.5)は、タスク数が増えると性能が明らかに低下します。実装レベルでは、自動運転と産業の垂直シーンという2つの主要な競技(分野)で、2026年に商業化と資本化の転換点が訪れる見通しです。耀途資本(ヤオトゥ・キャピタル)の創始パートナーである白宗義は、身体性インテリジェンス時代の新たな機会——末端物流の分野に期待すると率直に述べました。奥迪中国(アウディ・チャイナ)の研究開発担当副総裁Ivo Muthは、空間知能と世界モデルに関して、今後最も中核となる変化は、運転安全性の向上に加えて、状況認識と乗車の快適性の面にも表れるだろうと考えています。 (編集:文静) キーワード:
世界モデルは今年大きく進展し、自動運転は商業化の転換点を迎える可能性があります
「統一されたアーキテクチャ、データ体系、計算能力の支援が共同で推進されることで、世界モデルは今年、急速なブレークスルーを迎えるでしょう!」
3月29日に開催された2026中関村フォーラム年会の専門フォーラム「AI未来フォーラム:ジャンプ・投資・共生」で、生数科技(シャンシュウ・テクノロジー)の創始者であり、清華大学人工知能研究院の副院長である朱軍が、上記の見解を示した。
どのように構築するか
その一方で、世界モデルの定義が拡大化され、曖昧化されています。「『世界モデル』の定義をさらに明確化する必要があります」と朱軍は述べました。現在、多くの研究が不完全です。たとえば、ある種のインタラクティブ動画生成手法は、本質的にはデジタル空間の再構築にまだ限られており、人とシステムの単方向のインタラクションに主に用いられるもので、実際の環境で学習し、アクションを実行する能力を備えていません。
「世界モデル」は、マニフォールド空間の創始者である武偉(ウー・ウェイ)によって2種類に分けられます。1つはデジタル世界における世界モデルで、主に、よりリアルタイムなインタラクティブなインターフェースの構築に焦点が当てられています。もう1つは物理世界で用いられるもので、予測可能なロボットの“機械の脳”になります。「2種類の世界モデルを支える能力は一致しておらず、デジタル世界ではクリエイターの嗜好により多く迎合する必要があるのに対し、物理世界では、現実の物理やロボット操作を複製することが求められます。」
自動運転と身体性インテリジェンスの例でいえば、自動運転は実車データを収集してデータのクローズドループを実現しますが、ロボットはデータのコールドスタートに直面します。武偉は、多くの企業が自動運転に似た方式でロボットを展開し、実環境で遠隔操作を行ってデータを収集する傾向があると分析します。データ品質は高いものの、モデル性能がパラメータ規模や計算資源投入の増加に伴って伸びる速度に関する問題があります。「世界モデルの学習に関しては、一人称視点のデータによる事前学習を用いることで、この問題を解決できます。」
企業の経験から見ると、破壳ロボットの創始者であり、清華大学の交差情報研究院の助教授である許華哲は、100世帯でデータを収集しても、10000世帯へは汎化できないと指摘します。ロボットの事前学習は、一人称の動画で行い、本当の意味での汎化を提供する必要があります。具体的には、まず「何を行うのか/何を行わないのか」を定義し、そのうえでシステムを逆方向に反復させます。ハードウェア、運動制御なども含めます。たとえば、破壳ロボットの手は21自由度を実現できませんが、10のことを汎化して実行し、それからアップグレードを待ちます。
朱軍は「統一された世界モデルのフレームワーク」を提案し、クロスモーダル生成と行動タスクを理論上で統一します。この統一は、エンジニアリング上の組み合わせではなく、構造レベルでの統一です。よりマクロな観点から言えば、デジタル世界でも物理世界でも、最終的には異なる形態のエージェントで構成されることになります。物理世界のエージェントには「身体」があり、世界モデルはその中核となる「知能の中枢」です。
汎用の世界モデルを構築することは、大規模モデルの第一原理に立ち返ることができます。すなわち、拡張可能なアーキテクチャ、大規模データ、十分な計算能力です。朱軍は、世界モデルは統一アーキテクチャを採用すべきだと考えています。しかし、現在の主流手法は往々にしてモジュール化や断片化になっており、あるものは行動軌跡のフィッティングに注力し、あるものは予測に偏り、あるものは直接に制御戦略を学習します。
技術的ブレークスルー
世界モデル技術の可能性について語る際、清華大学の副教授である章明星は、多くの世界モデルのルートは言語モデルの能力に基づき、それをより多くのモーダルへと移転するものだと述べました。しかし、言語だけで物理世界をモデリングできるのか、それとも別の“浅い空間の言語”が必要なのでしょうか。現在、理論上の見解の相違が存在します。さらに、データ学習によってなのか、物理空間によってなのか、「物理の遠隔テレメトリ」を達成するのか、「第一人称視点」を得るのか。物理空間のモーダルや実現は、なお突破が必要です。
具体的には、2026年の世界モデルで注目すべき技術的ブレークスルーは2つあります。武偉は、1つはリアルタイムの操縦・インタラクション能力であり、もう1つは世界モデルの後学習(後段の学習)だと述べました。「特に強化学習とオンライン学習」について、許華哲が具体的に説明しました。強化学習を100台、1,000台、1万台のロボットへと拡張しても、成功率を損なうことなく、人と同じような速度に到達できることです。さらに、身体性インテリジェンスを展開後でも、奇妙なタスクに対して素早くオンライン学習できるようにします。
動画の大規模モデルに関する長期的な蓄積を踏まえ、朱軍は、より明確な技術ロードマップを提案しました。基盤層では、Diffusion Transformer(U-ViT)を統一の基座アーキテクチャとして用います。ピクセル空間でのデコードは、Vidu動画生成モデルに対応し、デジタルコンテンツ制作を支えます。行動空間でのデコードは、物理世界の身体的インタラクションを支えます。これは、同じ基座モデルが、デジタル世界の生成能力と、物理世界の行動能力の両方を同時に支えられることを意味します。
紹介によれば、生数科技は、多タスクのシナリオにおける能力を検証しました。たとえば、次の通りです。验证码操作タスク——メカニカルアームで人間のマウス操作を模擬し、画面認識と精密なクリックを実現します。チェス等のゲームの意思決定タスク——長期計画と多段推論が関わり、認知、予測、意思決定の協調が必要です。柔軟な物体操作——複雑で不規則な物体に直面しても、安定した把持を実現します。
統一アーキテクチャは、新たな発展の道筋をもたらします。実験観察により、2つの重要な現象が得られたと朱軍は述べました。1つは、従来のVision-Language-Action(VLA、ビジョン-言語-アクション)のルートと比べて、データ利用効率が桁(オーダー)単位で向上することです。2つ目は、多タスクの汎化能力が強化され、統一モデルの下で50以上のタスクにおいて高効率に汎化を実現でき、しかも性能が低下せずむしろ向上することです。対照的に、従来のVLAモデル(たとえばPI0.5)は、タスク数が増えると性能が明らかに低下します。
実装レベルでは、自動運転と産業の垂直シーンという2つの主要な競技(分野)で、2026年に商業化と資本化の転換点が訪れる見通しです。耀途資本(ヤオトゥ・キャピタル)の創始パートナーである白宗義は、身体性インテリジェンス時代の新たな機会——末端物流の分野に期待すると率直に述べました。奥迪中国(アウディ・チャイナ)の研究開発担当副総裁Ivo Muthは、空間知能と世界モデルに関して、今後最も中核となる変化は、運転安全性の向上に加えて、状況認識と乗車の快適性の面にも表れるだろうと考えています。
(編集:文静)
キーワード: