Microsoft World-R1: Обучение видео-модели с помощью усиленного обучения «понимать» 3D, не изменяя архитектуру, PSNR вырос на 10 дБ

robot
Генерация тезисов в процессе

AIMPACT сообщение, 28 апреля (UTC+8), согласно мониторингу 动察 Beating, команда Microsoft Research и Zhejiang University предложили World-R1, использующий усиленное обучение для обучения модели генерации видео из текста 3D геометрической согласованности без изменения архитектуры модели и без использования 3D датасетов. Основная идея: после генерации видео, с помощью предварительно обученной базовой 3D модели Depth Anything 3 восстанавливать 3D сцену в виде 3D-Gaussian (3DGS), затем рендерить из новой точки зрения и сравнивать с исходным видео, объединяя ошибку восстановления, отклонение траектории и семантическую достоверность новой точки зрения (оценка Qwen3-VL) в качестве сигнала награды, который через Flow-GRPO (метод усиленного обучения, адаптированный для модели потокового соответствия) передается видеомодели. Базовая модель — это открытая модель Wan 2.1 (1.3B и 14B), обученная на двух версиях: World-R1-Small и World-R1-Large. Обучающие данные включают около 3000 чистых текстовых подсказок, созданных Gemini, без использования каких-либо 3D активов. Во время обучения каждые 100 шагов вставляется «динамическая донастройка», при этом временно отключается 3D-награда, оставляя только награду за качество изображения, чтобы предотвратить подавление движений персонажей и других некжестких динамических аспектов модели в погоне за геометрической жесткостью. По метрикам 3D-согласованности, PSNR (пиковое отношение сигнал/шум) модели World-R1-Large увеличился на 7.91 дБ по сравнению с базовой Wan 2.1 14B, а версия Small — на 10.23 дБ. Общая видеокачество по VBench не ухудшилось и даже улучшилось. В слепом тестировании 25 участников, победа по геометрической согласованности достигла 92%, а общая предпочтительность — 86%. Код уже опубликован на GitHub под лицензией CC BY-NC-SA 4.0. (Источник: BlockBeats)

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить