VGHuman — это совместная команда из Пекинского университета, CMU, Тонгджи, UCLA и Мичигана, выпустившая на arXiv фреймворк для телесного ИИ, основанный на визуальных данных, который самостоятельно действует в незнакомых 3D-сценах. Фреймворк состоит из слоя мира (World Layer — однокамерная видеовосстановление с семантическими и коллизионными сетками 3D-газовых полей, учитывающих скрытие объектов) и слоя агента (Agent Layer — восприятие RGB-D с первого лица, итеративное рассуждение и генерация планов, преобразование диффузионной модели в полные движения). На 200 тестовых сценах уровень успеха примерно на 30 процентных пунктов выше, чем у базовых методов, таких как NaVILA, при этом уровень столкновений ниже или равен. Поддерживаются прыжки и бег, а также дальние планы, планируется открытый исходный код, репозиторий на GitHub уже создан.

MeNews

2026-05-01 03:10:18

Генерация тезисов в процессе

МЕ Новости, 14 апреля (UTC+8), согласно мониторингу 1M AI News, совместная команда Пекинского университета, Карнеги-Меллон, Тонгджи университет, Университет Калифорнии в Лос-Анджелесе и Мичиганского университета опубликовала на arXiv VGHuman — рамочную структуру для телесных ИИ, которая позволяет цифровому человеку самостоятельно действовать в незнакомых 3D-сценах, полагаясь только на визуальное восприятие. Ранее системы цифровых людей в основном зависели от предустановленных сценариев или привилегированных статусов, а отправной точкой VGHuman стало предоставление цифровому человеку настоящих глаз, чтобы он мог самостоятельно видеть дорогу, планировать и действовать. Структура состоит из двух уровней. Уровень мира (World Layer) восстанавливает из однокамерного видео 3D-сцену с семантическими метками и сетками столкновений, а дизайн восприятия препятствий позволяет ему распознавать скрытые мелкие объекты даже в сложных уличных условиях. Уровень агента (Agent Layer) оснащает цифрового человека RGB-D (цвет + глубина) восприятием с первого лица, генерирует планирование через визуальные подсказки пространственного восприятия и итеративное рассуждение, а затем преобразует его с помощью диффузионной модели в последовательность движений всего тела для управления ролью. В навигационном тесте на 200 сценах VGHuman показывает наивысший уровень успеха задач, превышая такие сильные базовые модели, как NaVILA, NaVid, Uni-NaVid, примерно на 30 процентных пунктов по трем уровням сложности: простая траектория, обход препятствий и динамичные пешеходы, при этом уровень столкновений равен или ниже. Также структура поддерживает различные стили движений, такие как бег и прыжки, а также долгосрочное планирование для достижения нескольких целей подряд. Планируется открытие кода и моделей, репозиторий на GitHub уже создан. (Источник: BlockBeats)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
WCTCTradingKingPK
436.24K Популярность
#
USSeeksStrategicBitcoinReserve
58.68M Популярность
#
IsraelStrikesIranBTCPlunges
37.17K Популярность
#
BitcoinETFOptionLimitQuadruples
977.1K Популярность
#
#FedHoldsRateButDividesDeepen
30.15K Популярность

Закрепить

Карта сайта

Популярные темы

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Закрепить