マイクロソフトWorld-R1:強化学習を用いて動画モデルに「3D理解」を教える、アーキテクチャを変更せずにPSNRが10dB向上

robot
概要作成中

AIMPACT メッセージ、4 月 28 日(UTC+8)、動察 Beating 監測によると、Microsoft 研究所と浙江大学のチームは World-R1 を提案し、強化学習を用いて文章生成動画モデルに 3D 幾何学的一致性を学習させる。モデルのアーキテクチャを変更せず、3D データセットに依存しない。核心的なアイデア:動画を生成した後、事前学習済みの 3D 基礎モデル Depth Anything 3 を用いてシーンの 3D ガウス(3DGS)を再構築し、異なる視点からレンダリングして元の動画と比較する。再構築誤差、軌跡偏差、新視点のセマンティック信頼度(Qwen3-VL の評価による)を組み合わせて報酬信号とし、Flow-GRPO(流れ適応型強化学習アルゴリズム)を通じて動画モデルにフィードバックを行う。 基盤モデルはオープンソースの万相 Wan 2.1(1.3B と 14B)であり、それぞれ World-R1-Small と World-R1-Large を訓練した。訓練データは約 3000 件の純テキストプロンプトのみで、Gemini によって生成され、3D アセットは一切使用しない。訓練時には 100 ステップごとに「動的微調整」を挿入し、一時的に 3D 報酬を停止し、画質報酬のみを残すことで、モデルが幾何学的剛性を追求して人物の動きなどの非剛体動態を抑制しないようにしている。 3D 一致性指標において、World-R1-Large の PSNR(ピーク信号対雑音比)は基盤の Wan 2.1 14B より 7.91dB向上し、Small 版は 10.23dB向上した。VBench の汎用動画品質は低下せずむしろ向上している。25 人のブラインドテストでは、幾何学的一致性の勝率は 92%、全体的な好みは 86% だった。コードは GitHub でオープンソース化されており、ライセンスは CC BY-NC-SA 4.0 である。(出典:BlockBeats)

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン