Tencent открыла исходный код модели HunYuan World Model 2.0, которая позволяет создавать проходимые 3D-миры за одну фразу, прямо импортируя их в Unity и UE

robot
Генерация тезисов в процессе

ME News Новости, 16 апреля (UTC+8), согласно мониторингу 动察 Beating, Tencent официально выпустила и открыла исходный код модели 3D мира 混元 3D 世界模型 2.0 (HY-World 2.0). Это мультимодальный фреймворк модели мира, поддерживающий текст, одиночное изображение, изображения с несколькими ракурсами и видео, при этом вывод не видео, а редактируемые 3D-активы (сетчатые модели, 3D-гауссовские спреи, облака точек), которые можно напрямую импортировать в Unity, Unreal Engine и NVIDIA Isaac Sim. Весовые коэффициенты модели и код размещены на GitHub и Hugging Face под открытым исходным кодом. Основное отличие от видео-моделей мира, таких как Genie 3, Cosmos и др., заключается в следующем: видео-модели мира генерируют пиксельное видео, которое исчезает после воспроизведения и не подлежит редактированию; HY-World 2.0 создает долговечные 3D-активы, поддерживающие свободное перемещение, физические столкновения и вторичное редактирование. В техническом отчете Tencent подчеркивает этот различие как «посмотреть видео, и оно исчезает» против «построить мир, который сохраняется навсегда». Реализация на потребительском GPU позволяет осуществлять рендеринг в реальном времени, а вывод осуществляется за один проход, в отличие от видео-моделей, где каждый кадр требует отдельной генерации. Технически процесс делится на четыре этапа: сначала с помощью HY-Pano 2.0 создается 360-градусный панорамный снимок из входных данных, затем с помощью WorldNav планируется траектория, далее с помощью WorldStereo 2.0 расширяется мир вдоль траектории, и, наконец, с помощью WorldMirror 2.0 все созданные сегменты объединяются в единый 3D-сценарий. В рамках открытого проекта HY-World 2.0 называется первым моделем 3D мира, достигшим уровня SOTA, его качество сопоставимо с коммерческим закрытым продуктом Marble. Однако на данный момент опубликован только код и веса для модуля WorldMirror 2.0 (модуль 3D-восстановления, около 1.2 миллиарда параметров), а код и веса для модулей генерации панорам, планирования траекторий и расширения мира отмечены как «скоро будут опубликованы». Для разработчиков игр это означает возможность быстро создавать прототипы уровней и карт одним предложением, экономя значительное время на ручное моделирование. Для исследователей embodied intelligence снижение стоимости генерации симуляционных сред из фотографий значительно повышает эффективность. Tencent также запустила онлайн-демо, позволяющую пользователям управлять персонажами и свободно исследовать созданные улицы и здания. (Источник: BlockBeats)

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить