Об'єднані дослідження п’яти університетів дозволяють цифровим людям самостійно орієнтуватися у 3D-сцені за допомогою зору, рівень успіху перевищує оптимальну базову лінію приблизно на 30 відсоткових пунктів

robot
Генерація анотацій у процесі
МЕ Новини повідомляють, 14 квітня (UTC+8), згідно з моніторингом 1M AI News, що спільна команда з Пекінського університету, Карнегі Меллонського університету, Тонгі університету, Каліфорнійського університету у Лос-Анджелесі та Мічиганського університету опублікувала на arXiv VGHuman — енергетичну AI-структуру, яка дозволяє цифровій людині самостійно діяти у незнайомих 3D-сценах, орієнтуючись лише за зоровими відчуттями. Раніше системи цифрових людей зазвичай залежали від заздалегідь заданих сценаріїв або привілейованої інформації про стан, тоді як VGHuman має на меті дати цифровій людині справжні очі, щоб вона могла самостійно бачити дорогу, планувати та діяти. Структура складається з двох рівнів. World Layer — це 3D-гіперсцена з семантичними позначками та колізійною сіткою, відновлена з моно-відео, з дизайном для виявлення затемнень, що дозволяє їй розпізнавати дрібні об’єкти навіть у складних зовнішніх умовах. Agent Layer обладнаний RGB-D (кольоровий + глибина) сенсорами з першим поглядом для цифрової людини, що генерує плани за допомогою візуальних підказок для просторового сприйняття та ітеративного мислення, а потім перетворює їх у повнотілі рухи за допомогою дифузійної моделі, яка керує рухами персонажа. У навігаційному тестуванні на 200 сценах VGHuman показав найвищий рівень успішності — понад на 30 відсотків у порівнянні з найсильнішими базовими моделями NaVILA, NaVid, Uni-NaVid — у трьох рівнях складності: простий шлях, обхід перешкод і динамічні пішоходи, при цьому рівень зіткнень був на рівні або нижче. Структура також підтримує біг, стрибки та інші стилі руху, а також довгострокове планування для досягнення кількох цілей поспіль. Планується відкриття коду та моделей, репозиторій на GitHub вже створено. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено