Об'єднані дослідження п’яти університетів дозволяють цифровим людям самостійно орієнтуватися у 3D-сцені за допомогою зору, рівень успіху перевищує оптимальну базову лінію приблизно на 30 відсоткових пунктів

robot
Генерація анотацій у процесі

МЕ Новини повідомляє, 14 квітня (UTC+8), згідно з моніторингом 1M AI News, що спільна команда Пекінського університету, Карнегі Меллонського університету, Тонгі університету, Каліфорнійського університету у Лос-Анджелесі та Мічиганського університету опублікувала на arXiv VGHuman — рамкову систему для тілесного штучного інтелекту, яка дозволяє цифровій людині самостійно діяти у незнайомих 3D-сценах, орієнтуючись лише на зорове сприйняття. Раніше системи цифрових людей зазвичай залежали від заздалегідь заданих сценаріїв або привілейованої інформації про стан, а VGHuman має на меті дати цифровій людині справжні очі, щоб вона могла сама бачити дорогу, планувати та діяти. Рамкова система складається з двох рівнів. World Layer — відновлює з однокамерного відео 3D-сцену з семантичними позначками та сітками колізій, при цьому дизайн урахування перешкод дозволяє їй розпізнавати дрібні об’єкти навіть у складних зовнішніх умовах. Agent Layer обладнує цифрову людину RGB-D (кольорове + глибина) сенсорами з першим поглядом, генерує плани через візуальні підказки для сприйняття простору та ітеративне мислення, а в кінцевому підсумку за допомогою дифузійної моделі перетворює їх у послідовність рухів усього тіла для керування рухом персонажа. У навігаційному бенчмарку з 200 тестових сцен VGHuman досягла найвищого рівня успішності у трьох рівнях складності: простий шлях, обхід перешкод, динамічні пішоходи, перевищуючи найсильніші базові моделі NaVILA, NaVid, Uni-NaVid приблизно на 30 відсотків, при цьому рівень зіткнень був на рівні або нижче. Рамкова система також підтримує різні стилі руху, такі як біг і стрибки, а також довгострокове планування для досягнення кількох цілей поспіль. Планується відкриття коду та моделей, репозиторій на GitHub вже створено. (Джерело: BlockBeats)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити