Tencent відкрила вихідний код моделі Hybrid World Model 2.0, яка за одну фразу може створити прохідний 3D світ, безпосередньо імпортується в Unity та UE

robot
Генерація анотацій у процесі

МЕ Новини, 16 квітня (UTC+8), згідно з моніторингом Дунчі Beating, Tencent офіційно випустила та відкрила код для Мікс-Ву 3D світової моделі 2.0 (HY-World 2.0). Це багатомодульна рамка світової моделі, яка підтримує текст, одне зображення, багатокутові зображення та відео, а вихід не є відео, а редаговані 3D активи (сіткові моделі, 3D гауссові розпилення, хмари точок), які можна безпосередньо імпортувати в Unity, Unreal Engine та NVIDIA Isaac Sim. Ваги моделі та код відкриті на GitHub та Hugging Face. Основна різниця з відео світовими моделями, такими як Genie 3, Cosmos, полягає в тому, що відео світові моделі генерують піксельне відео, яке зникає після відтворення і не підлягає редагуванню; HY-World 2.0 створює тривалі 3D активи, які підтримують вільне пересування, фізичні зіткнення та вторинне редагування. У технічному звіті Tencent підсумувала цю різницю як «подивитися відео, і воно зникає» проти «побудувати світ, який зберігається назавжди». Реальне часове рендеринг можливо навіть на споживчому GPU, inference виконується один раз, на відміну від відео світових моделей, де кожен кадр потрібно генерувати окремо. Технічно процес складається з чотирьох етапів: спочатку за допомогою HY-Pano 2.0 генерується 360-градусний панорамний знімок з вхідних даних, потім за допомогою WorldNav планується траєкторія, далі за допомогою WorldStereo 2.0 світ розширюється вздовж траєкторії, і нарешті за допомогою WorldMirror 2.0 всі згенеровані фрагменти реконструюються у єдину 3D сцену. У відкритому рішенні HY-World 2.0 називає себе першим у світі 3D світовою моделлю, яка досягла рівня SOTA, її результати порівнювані з закритими комерційними продуктами Marble. Однак наразі відкрито лише код і ваги для WorldMirror 2.0 (модуль 3D реконструкції, близько 1.2 мільярдів параметрів), тоді як код і ваги для модулів генерації панорам, планування траєкторії та розширення світу позначені як «незабаром будуть опубліковані». Для розробників ігор це означає швидке створення прототипів рівнів і карт за допомогою однієї фрази, що економить багато часу на ручне моделювання. Для дослідників штучного інтелекту з тілесною інтелігенцією це значно знижує витрати на автоматичне створення симуляційних тренувальних середовищ із фотографій. Tencent також запустила онлайн-інтерфейс для досвіду, де користувачі можуть керувати персонажами і вільно досліджувати згенеровані вулиці та будівлі. (Джерело: BlockBeats)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити