ME News のお知らせ。4月3日(UTC+8)、Meta AI Researchチームは、物理プランニングのための結合埋め込み予測世界モデルJEPA-WMsおよび関連研究を公開しました。この研究では、モデルが成功するための重要な要因を探り、完全なPyTorch実装、データセット、事前学習済みモデルを提供します。公開されたモデルには、主要なJEPA-WMに加えて、ベースラインとしてDINO-WMおよびV-JEPA-2-AC(fixed)モデルが含まれ、DROID \& RoboCasa、Metaworld、Push-T、PointMaze、Wallなど複数のロボットの操作・ナビゲーション環境をカバーします。モデルは、DINOv3 ViT-L/16、DINOv2 ViT-S/14、V-JEPA-2 ViT-G/16などの視覚エンコーダーを採用し、入力画像の解像度は主に224×224または256×256です。プロジェクトでは、可視化および軌跡のデコード用としてオプションのVM2Mデコーダーヘッドも提供していますが、当該デコーダーは世界モデルの学習やプランニング評価を行うのに必須ではないと強調しています。すべてのリソースはGitHub、Hugging Face、arXivで公開されています。(出典:InFoQ)
Meta AIが物理計画に使用される共同埋め込み予測世界モデルJEPA-WMsを発表
ME News のお知らせ。4月3日(UTC+8)、Meta AI Researchチームは、物理プランニングのための結合埋め込み予測世界モデルJEPA-WMsおよび関連研究を公開しました。この研究では、モデルが成功するための重要な要因を探り、完全なPyTorch実装、データセット、事前学習済みモデルを提供します。公開されたモデルには、主要なJEPA-WMに加えて、ベースラインとしてDINO-WMおよびV-JEPA-2-AC(fixed)モデルが含まれ、DROID & RoboCasa、Metaworld、Push-T、PointMaze、Wallなど複数のロボットの操作・ナビゲーション環境をカバーします。モデルは、DINOv3 ViT-L/16、DINOv2 ViT-S/14、V-JEPA-2 ViT-G/16などの視覚エンコーダーを採用し、入力画像の解像度は主に224×224または256×256です。プロジェクトでは、可視化および軌跡のデコード用としてオプションのVM2Mデコーダーヘッドも提供していますが、当該デコーダーは世界モデルの学習やプランニング評価を行うのに必須ではないと強調しています。すべてのリソースはGitHub、Hugging Face、arXivで公開されています。(出典:InFoQ)