Об'єднані дослідження п’яти університетів дозволили цифровим людям самостійно орієнтуватися у 3D-сцені за допомогою зору, рівень успіху перевищує оптимальну базову лінію приблизно на 30 відсоткових пунктів

robot
Генерація анотацій у процесі
ME News Новини, 14 квітня (UTC+8), згідно з моніторингом 1M AI News, спільна команда Пекінського університету, Карнегі Меллон, Тонгі університету, Каліфорнійського університету Лос-Анджелес та Мічиганського університету опублікувала на arXiv VGHuman — рамкову систему для тілесного штучного інтелекту, яка дозволяє цифровій людині самостійно діяти у незнайомих 3D-сценах, базуючись лише на візуальному сприйнятті. Раніше системи цифрових людей зазвичай залежали від заздалегідь заданих сценаріїв або привілейованої інформації про стан, а VGHuman має на меті дати цифровій людині справжні очі, щоб вона могла сама бачити дорогу, планувати та діяти. Рамкова система складається з двох рівнів. World Layer — відновлює з моно-відео 3D-сцену з семантичними позначками та колізійною сіткою, дизайн урахування перешкод дозволяє їй розпізнавати дрібні об’єкти навіть у складних зовнішніх умовах. Agent Layer обладнує цифрову людину RGB-D (кольоровий + глибина) сенсором з першим поглядом, генерує плани за допомогою візуальних підказок для сприйняття простору та ітеративного мислення, а потім за допомогою дифузійної моделі перетворює їх у повнотілі рухи для керування рухом персонажа. У навігаційному бенчмарку з 200 тестових сцен, на трьох рівнях складності — простий шлях, обхід перешкод, динамічні пішоходи — VGHuman досяг найвищого рівня успішності понад на 30 відсотків у порівнянні з найсильнішими базовими моделями NaVILA, NaVid, Uni-NaVid, при цьому рівень зіткнень був на рівні або нижче. Рамкова система також підтримує біг, стрибки та інші стилі руху, а також довгострокове планування для досягнення кількох цілей поспіль. Планується відкриття коду та моделей, репозиторій на GitHub вже створено. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено