World-R1 за допомогою підкріплювального навчання забезпечує 3D геометричну узгодженість відео, створеного текстом, без зміни архітектури та без використання 3D датасетів. Основне: відновлення сцени у 3D за допомогою Depth Anything 3, реконструкція 3D Гаусса та рендеринг з нової точки зору, порівняння з оригінальним відео, використання помилок реконструкції, відхилень траєкторії та семантичної довіри нової точки зору як нагороди, навчання за допомогою Flow-GRPO. Базова модель Wan 2.1 похідна від Small/Large, близько 3000 підказок, без 3D активів; під час тренування кожні 100 кроків вставляється динамічне тонке налаштування. Large покращує 7.91dB, Small — 10.23dB, сліпе тестування геометричної узгодженості — 92%, загальна перевага — 86%. Код дивіться на GitHub, CC BY-NC-SA 4.0.

MeNews

2026-04-28 10:00:20

Генерація анотацій у процесі

AIMPACT повідомлення, 28 квітня (UTC+8), згідно з моніторингом Датчі Beating, команда Microsoft Research та команда Zhejiang University запропонували World-R1, використовуючи підкріплювальне навчання для навчання моделей створення відео з тексту 3D геометричної узгодженості, без зміни архітектури моделі та без залежності від 3D датасетів. Основна ідея: після генерації відео, за допомогою попередньо навченого базового 3D-моделю Depth Anything 3 відновлюється 3D-гауссівська модель сцени (3DGS), потім з нової точки зору виконується рендеринг і порівняння з оригінальним відео, а помилка відновлення, відхилення траєкторії та семантична довірливість нової точки зору (оцінена Qwen3-VL) об’єднуються у сигнали винагороди, які через Flow-GRPO (метод підкріплювального навчання, адаптований для моделей потокового співставлення) передаються відеомоделі. Базова модель — це відкритий вихідний код Wan 2.1 (1.3B та 14B), на основі яких були навчені World-R1-Small та World-R1-Large відповідно. Навчальні дані складаються лише з приблизно 3000 чистих текстових підказок, згенерованих Gemini, без використання будь-яких 3D-активів. Під час навчання кожні 100 кроків вставляється «динамічне тонке налаштування», тимчасово вимикається 3D-метрика винагороди, залишається лише якість зображення, щоб запобігти моделі подавати перевагу геометричній жорсткості і пригнічувати рух персонажів та інші нежорсткі динаміки. За показниками 3D-узгодженості, PSNR (пікове співвідношення сигналу до шуму) World-R1-Large покращився на 7.91 дБ порівняно з базовою Wan 2.1 14B, а версія Small — на 10.23 дБ. Відео VBench демонструє зростання якості без зниження. У сліпому тесті з 25 учасниками, рівень переваги у геометричній узгодженості склав 92%, загальна перевага — 86%. Код вже відкритий на GitHub під ліцензією CC BY-NC-SA 4.0. (Джерело: BlockBeats)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
WCTCTradingKingPK
325.75K Популярність
#
CryptoMarketsDipSlightly
226.31K Популярність
#
IsraelStrikesIranBTCPlunges
35.12K Популярність
#
#DailyPolymarketHotspot
658.23K Популярність
#
SolanaReleasesQuantumRoadmap
12.75M Популярність

Закріпити

карта сайту

Microsoft World-R1: Навчання моделей відео за допомогою підсиленого навчання «розуміти» 3D, без зміни архітектури, PSNR підвищився на 10 дБ

Популярні теми

WCTCTradingKingPK

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SolanaReleasesQuantumRoadmap

Закріпити