VGHuman — це спільна команда Пекінського університету, CMU, Tongji, UCLA та Мічиганського університету, яка опублікувала на arXiv рамкову систему для тілесного штучного інтелекту, що базується на зоровому сприйнятті для автономних дій у незнайомих 3D-сценах. Рамкова система складається з рівня World Layer (тривимірне Gaussian-поле з відновленням у моно-відео з семантикою та колізійною сіткою, враховуючи затемнення) та Agent Layer (RGB-D сприйняття з першої особи, ітеративне розуміння та генерація плану, перетворення за допомогою дифузійної моделі у повнотілі руху). На 200 тестових сценах рівень успішності приблизно на 30 відсоткових пунктів вищий за базові моделі NaVILA та інші, при цьому рівень колізій нижчий або рівний; підтримуються рухи стрибків та довгострокове планування, планується відкриття коду, репозиторій вже створено на GitHub.

MeNews

2026-05-01 03:10:18

Генерація анотацій у процесі

МЕ Новини повідомляє, 14 квітня (UTC+8), згідно з моніторингом 1M AI News, що спільна команда Пекінського університету, Карнегі Меллонського університету, Тонгі університету, Каліфорнійського університету у Лос-Анджелесі та Мічиганського університету опублікувала на arXiv VGHuman — рамкову систему для тілесного штучного інтелекту, яка дозволяє цифровій людині самостійно діяти у незнайомих 3D-сценах, орієнтуючись лише на зорове сприйняття. Раніше системи цифрових людей зазвичай залежали від заздалегідь заданих сценаріїв або привілейованої інформації про стан, а VGHuman має на меті дати цифровій людині справжні очі, щоб вона могла сама бачити дорогу, планувати та діяти. Рамкова система складається з двох рівнів. World Layer — відновлює з однокамерного відео 3D-сцену з семантичними позначками та сітками колізій, при цьому дизайн урахування перешкод дозволяє їй розпізнавати дрібні об’єкти навіть у складних зовнішніх умовах. Agent Layer обладнує цифрову людину RGB-D (кольорове + глибина) сенсорами з першим поглядом, генерує плани через візуальні підказки для сприйняття простору та ітеративне мислення, а в кінцевому підсумку за допомогою дифузійної моделі перетворює їх у послідовність рухів усього тіла для керування рухом персонажа. У навігаційному бенчмарку з 200 тестових сцен VGHuman досягла найвищого рівня успішності у трьох рівнях складності: простий шлях, обхід перешкод, динамічні пішоходи, перевищуючи найсильніші базові моделі NaVILA, NaVid, Uni-NaVid приблизно на 30 відсотків, при цьому рівень зіткнень був на рівні або нижче. Рамкова система також підтримує різні стилі руху, такі як біг і стрибки, а також довгострокове планування для досягнення кількох цілей поспіль. Планується відкриття коду та моделей, репозиторій на GitHub вже створено. (Джерело: BlockBeats)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
WCTCTradingKingPK
453.09K Популярність
#
USSeeksStrategicBitcoinReserve
58.7M Популярність
#
IsraelStrikesIranBTCPlunges
37.32K Популярність
#
BitcoinETFOptionLimitQuadruples
988.67K Популярність
#
#FedHoldsRateButDividesDeepen
30.98K Популярність

Закріпити

карта сайту

Популярні теми

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Закріпити