Microsoft World-R1: Навчання моделей відео за допомогою підсиленого навчання «розуміти» 3D, без зміни архітектури, PSNR підвищився на 10 дБ

robot
Генерація анотацій у процесі

AIMPACT повідомлення, 28 квітня (UTC+8), згідно з моніторингом Датчі Beating, команда Microsoft Research та команда Zhejiang University запропонували World-R1, використовуючи підкріплювальне навчання для навчання моделей створення відео з тексту 3D геометричної узгодженості, без зміни архітектури моделі та без залежності від 3D датасетів. Основна ідея: після генерації відео, за допомогою попередньо навченого базового 3D-моделю Depth Anything 3 відновлюється 3D-гауссівська модель сцени (3DGS), потім з нової точки зору виконується рендеринг і порівняння з оригінальним відео, а помилка відновлення, відхилення траєкторії та семантична довірливість нової точки зору (оцінена Qwen3-VL) об’єднуються у сигнали винагороди, які через Flow-GRPO (метод підкріплювального навчання, адаптований для моделей потокового співставлення) передаються відеомоделі. Базова модель — це відкритий вихідний код Wan 2.1 (1.3B та 14B), на основі яких були навчені World-R1-Small та World-R1-Large відповідно. Навчальні дані складаються лише з приблизно 3000 чистих текстових підказок, згенерованих Gemini, без використання будь-яких 3D-активів. Під час навчання кожні 100 кроків вставляється «динамічне тонке налаштування», тимчасово вимикається 3D-метрика винагороди, залишається лише якість зображення, щоб запобігти моделі подавати перевагу геометричній жорсткості і пригнічувати рух персонажів та інші нежорсткі динаміки. За показниками 3D-узгодженості, PSNR (пікове співвідношення сигналу до шуму) World-R1-Large покращився на 7.91 дБ порівняно з базовою Wan 2.1 14B, а версія Small — на 10.23 дБ. Відео VBench демонструє зростання якості без зниження. У сліпому тесті з 25 учасниками, рівень переваги у геометричній узгодженості склав 92%, загальна перевага — 86%. Код вже відкритий на GitHub під ліцензією CC BY-NC-SA 4.0. (Джерело: BlockBeats)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити