World-R1 通过强化学习让文生视频在不改架构、无需3D数据集的情况下实现3D几何一致性。核心：用 Depth Anything 3 重建场景3D高斯并从新视角渲染，与原视频对比，将重建误差、轨迹偏差和新视角语义可信度作为奖励，Flow-GRPO 学习。基座 Wan 2.1 派生 Small/Large，约3000条 prompts，无3D资产；训练中每100步插入动态微调。Large 提升7.91dB，Small 10.23dB，盲测几何一致性 92%，总体偏好 86%。代码见 GitHub，CC BY-NC-SA 4.0。

MeNews

2026-04-28 10:00:20

Генерация тезисов в процессе

AIMPACT сообщение, 28 апреля (UTC+8), согласно мониторингу 动察 Beating, команда Microsoft Research и Zhejiang University предложили World-R1, использующий усиленное обучение для обучения модели генерации видео из текста 3D геометрической согласованности без изменения архитектуры модели и без использования 3D датасетов. Основная идея: после генерации видео, с помощью предварительно обученной базовой 3D модели Depth Anything 3 восстанавливать 3D сцену в виде 3D-Gaussian (3DGS), затем рендерить из новой точки зрения и сравнивать с исходным видео, объединяя ошибку восстановления, отклонение траектории и семантическую достоверность новой точки зрения (оценка Qwen3-VL) в качестве сигнала награды, который через Flow-GRPO (метод усиленного обучения, адаптированный для модели потокового соответствия) передается видеомодели. Базовая модель — это открытая модель Wan 2.1 (1.3B и 14B), обученная на двух версиях: World-R1-Small и World-R1-Large. Обучающие данные включают около 3000 чистых текстовых подсказок, созданных Gemini, без использования каких-либо 3D активов. Во время обучения каждые 100 шагов вставляется «динамическая донастройка», при этом временно отключается 3D-награда, оставляя только награду за качество изображения, чтобы предотвратить подавление движений персонажей и других некжестких динамических аспектов модели в погоне за геометрической жесткостью. По метрикам 3D-согласованности, PSNR (пиковое отношение сигнал/шум) модели World-R1-Large увеличился на 7.91 дБ по сравнению с базовой Wan 2.1 14B, а версия Small — на 10.23 дБ. Общая видеокачество по VBench не ухудшилось и даже улучшилось. В слепом тестировании 25 участников, победа по геометрической согласованности достигла 92%, а общая предпочтительность — 86%. Код уже опубликован на GitHub под лицензией CC BY-NC-SA 4.0. (Источник: BlockBeats)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
WCTCTradingKingPK
330.93K Популярность
#
CryptoMarketsDipSlightly
230.98K Популярность
#
IsraelStrikesIranBTCPlunges
35.19K Популярность
#
#DailyPolymarketHotspot
661.42K Популярность
#
SolanaReleasesQuantumRoadmap
12.75M Популярность

Закрепить

Карта сайта

Microsoft World-R1: Обучение видео-модели с помощью усиленного обучения «понимать» 3D, не изменяя архитектуру, PSNR вырос на 10 дБ

Популярные темы

WCTCTradingKingPK

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SolanaReleasesQuantumRoadmap

Закрепить