世界モデルの研究焦点は、過去1年で最初は表現学習と未来予測に集中していた。モデルはまず世界を理解し、その後内部で未来の状態を推演する。このアプローチはすでに代表的な成果を生み出している。V-JEPA 2（Video Joint Embedding Predictive Architecture 2——Metaが2025年に発表した動画世界モデル）は、100万時間以上のインターネット動画を用いて事前学習を行い、少量のロボットインタラクションデータと組み合わせて、世界モデルが理解、予測、ゼロショットロボットプランニングにおいて潜在的な可能性を示した。

しかし、モデルが予測できても、長期タスクを処理できるわけではない。多段階制御に直面すると、システムは通常二つの圧力に直面する。一つは、予測誤差が長いロールアウト（連続した複数ステップの推演）で持続的に蓄積し、経路全体が目標から逸脱しやすくなること。もう一つは、行動探索空間がhorizon（計画視野）とともに急速に拡大し、計画コストが継続的に増加することだ。HWMは世界モデルの根底にある学習方法を変えるのではなく、既存の行動条件付き世界モデルの上に階層的な計画構造を追加し、システムがまず段階的な経路を組織し、その後局所的な行動を処理できるようにしている。

技術的には、V-JEPA 2（より世界表現と基礎予測に偏り、HWMは長期計画に偏り、WAV（World Action Verifier：自己改善型世界モデル、前向き-逆向き非対称性を利用））の違いがある。

一、長期制御が依然として世界モデルのボトルネックである理由

長期制御の難しさは、ロボットタスクに置き換えるとより明確になる。例えば、ロボットアームでコップを掴み、引き出しに入れる操作は、単一の動作ではなく、一連の連続したステップだ。システムは物体に近づき、姿勢を調整し、掴み、目的地に移動し、引き出しを操作し、置く必要がある。経路が長くなると、二つの問題が同時に現れる。一つは、予測誤差がロールアウトに沿って持続的に蓄積しやすくなること。もう一つは、行動探索空間がhorizonとともに急速に拡大し、計算コストが増大することだ。

システムが欠いているのは、局所的な予測能力ではなく、遠い目標を段階的な経路に組織する能力だ。多くの行動は局所的には目標から逸れているように見えるが、実際には目標達成に必要な中間ステップだ。例えば、掴む前に腕を上げる、引き出しを開く前に少し後退して角度を調整する、といった具合だ。

展示型タスクでは、世界モデルは一貫した予測を示すことができるが、実際の制御シナリオに入ると性能は低下し、問題も浮上する。これは表現そのものだけでなく、計画層の成熟度不足も原因だ。

二、HWMはどのように計画プロセスを再構築するか

HWMは、もともと一層で完結していた計画プロセスを二層に分割する。上層は長期的な段階の方向性を担当し、下層は短期的な局所実行を担当する。モデルは一つのリズムで計画するのではなく、二つの異なる時間リズムで同時に計画を進める。

長期タスクを単層で処理する場合、通常は底層の行動空間内で直接全行動チェーンを探索する必要がある。タスクが長くなるほど探索コストは増し、予測誤差も多段ロールアウトに沿って拡散しやすくなる。HWMはこの過程を分割し、上層は長期的な経路選択だけを処理し、下層は現在の段階の行動を完了させる。これにより、長いタスクは複数の短いタスクに分割され、計画の複雑さが低減される。

また、重要な設計として、上層の行動は単に二つの状態間の差分を記録するのではなく、エンコーダを用いて一段の低層行動をより高次の行動表現に圧縮する。長期タスクにおいては、重要なのは始点と終点の差だけでなく、その中間ステップの組織方法だ。上層が位置の差だけを見ると、動きの経路情報を失いやすい。

HWMは、階層的なタスク組織の方式を体現している。多段階の作業に直面したとき、システムはすべての行動を一度に展開するのではなく、まず粗い段階経路を形成し、それを段階ごとに実行・修正していく。この階層関係が世界モデルに入ることで、予測能力はより安定して計画能力に変換され始める。

三、0%から70%まで、実験結果が示すもの

論文の設定した実世界の掴みと置きのタスクでは、システムは最終目標条件だけを受け取り、中間目標は人手で分割されていない。この条件下で、HWMの成功率は70%に達し、単層の世界モデルの成功率は0%だった。長いタスクがほぼ達成不可能だったものが、階層的計画を導入することで高確率で実現可能になった。

また、物体操作や迷路ナビゲーションなどのシミュレーションタスクもテストされた。結果は、階層的計画は成功率を向上させるだけでなく、計画段階の計算コストも削減した。いくつかの環境では、計画段階の計算コストを最大で4分の1にまで減らしつつ、成功率も高いか同等を維持した。

四、V-JEPAからHWM、そしてWAVへ

V-JEPA 2は、世界表現のアプローチを代表する。100万時間以上のインターネット動画を用いた事前学習により、少なくとも62時間のロボット動画を用いた事後学習と組み合わせて、潜在的な行動条件付き世界モデル（抽象表現空間で行動情報と結合して予測する世界モデル）を獲得した。これは、モデルが大規模な観察から世界表現を獲得し、その表現をロボットの計画に移用できることを示している。

HWMは次のステップに位置づけられる。モデルはすでに世界表現と基礎予測能力を持つが、多段階制御に入ると誤差の蓄積と探索空間の拡大の問題が顕在化する。HWMは、底層の表現学習の方法を変えるのではなく、既存の行動条件付き世界モデルの上に多時間尺度の計画構造を追加した。遠い目標を中間ステップに組織し、段階的に進める方法を扱う。

WAVはさらに、検証能力に焦点を当てる。世界モデルが戦略の最適化や展開シナリオに進むには、予測だけでなく、自身のどの領域で歪みやすいかを発見し、それに基づいて自己校正できる必要がある。モデルが自己検査をどう行うかに関心がある。

V-JEPAは世界表現に偏り、HWMはタスク計画に偏り、WAVは結果の検証に偏る。三者は異なる焦点を持つが、方向性は一致している。世界モデルの次の段階は、単なる内部予測から、予測・計画・検証を一体化したシステム能力へと進化している。

五、内部予測から実行可能なシステムへ

過去の多くの世界モデル研究は、未来状態予測の連続性や内部世界表現の安定性向上に近かった。しかし、現在の研究は変化しつつあり、システムは環境の判断を形成し、その判断を行動に変換し、結果に基づいて次のステップを修正する必要が出てきている。長期タスクにおいて誤差伝播を制御し、探索範囲を圧縮し、推論コストを低減することが求められる。

こうした変化はAIエージェントにも影響を与える。多くのエージェントシステムは、ツール呼び出しやファイル読み取り、複数ステップの指示実行といった短距離タスクはこなせるが、長距離・多段階・途中で再計画が必要なタスクになると性能が低下する。これはロボット制御の難点と本質的に変わらず、上層の経路組織能力不足により、局所的な実行と全体目標の間に断絶が生じている。

HWMが提案する階層的アプローチは、上層が経路と段階目標を担当し、下層が局所的な行動とフィードバックを処理し、結果検証を重ねる構造は、今後も多くのシステムで継続的に採用されるだろう。世界モデルの次の段階は、単に未来を予測するだけでなく、予測・実行・修正を一つの運用可能な経路に組織化することに重点が移っている。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。