Совместное исследование пяти университетов показало, что цифровые люди могут самостоятельно ориентироваться в 3D-сцене по визуальным данным, уровень успеха превышает оптимальную базовую линию примерно на 30 процентных пунктов

robot
Генерация тезисов в процессе

МЕ Новости, 14 апреля (UTC+8), согласно мониторингу 1M AI News, совместная команда Пекинского университета, Карнеги-Меллон, Тонгджи университет, Университет Калифорнии в Лос-Анджелесе и Мичиганского университета опубликовала на arXiv VGHuman — рамочную структуру для телесных ИИ, которая позволяет цифровому человеку самостоятельно действовать в незнакомых 3D-сценах, полагаясь только на визуальное восприятие. Ранее системы цифровых людей в основном зависели от предустановленных сценариев или привилегированных статусов, а отправной точкой VGHuman стало предоставление цифровому человеку настоящих глаз, чтобы он мог самостоятельно видеть дорогу, планировать и действовать. Структура состоит из двух уровней. Уровень мира (World Layer) восстанавливает из однокамерного видео 3D-сцену с семантическими метками и сетками столкновений, а дизайн восприятия препятствий позволяет ему распознавать скрытые мелкие объекты даже в сложных уличных условиях. Уровень агента (Agent Layer) оснащает цифрового человека RGB-D (цвет + глубина) восприятием с первого лица, генерирует планирование через визуальные подсказки пространственного восприятия и итеративное рассуждение, а затем преобразует его с помощью диффузионной модели в последовательность движений всего тела для управления ролью. В навигационном тесте на 200 сценах VGHuman показывает наивысший уровень успеха задач, превышая такие сильные базовые модели, как NaVILA, NaVid, Uni-NaVid, примерно на 30 процентных пунктов по трем уровням сложности: простая траектория, обход препятствий и динамичные пешеходы, при этом уровень столкновений равен или ниже. Также структура поддерживает различные стили движений, такие как бег и прыжки, а также долгосрочное планирование для достижения нескольких целей подряд. Планируется открытие кода и моделей, репозиторий на GitHub уже создан. (Источник: BlockBeats)

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить