VGHuman est un cadre d'IA incarnée développé par une équipe conjointe de Peking University, CMU, Tongji, UCLA et Michigan, publié sur arXiv, permettant une action autonome dans des scènes 3D inconnues via la vision. Le cadre se divise en couche mondiale (World Layer : scène 3D gaussienne avec reconstruction vidéo monoculaire, sémantique et maillage de collision, prenant en compte l'occlusion) et couche agent (Agent Layer : perception RGB-D en première personne, raisonnement itératif pour générer des plans, modèle de diffusion transformant en mouvements corporels complets). Sur 200 scènes de test, le taux de réussite dépasse d'environ 30 points celui de NaVILA et autres lignes de référence, avec un taux de collision inférieur ou équivalent ; supporte des actions telles que sauter et courir, ainsi que la planification à long terme, le code sera open source, le dépôt GitHub est déjà créé.

MeNews

2026-05-01 03:10:18

Création du résumé en cours

ME News Actualités, le 14 avril (UTC+8), selon 1M AI News, une équipe conjointe de l’Université de Pékin, de l’Université Carnegie Mellon, de l’Université Tongji, de l’Université de Californie à Los Angeles et de l’Université du Michigan a publié sur arXiv VGHuman, un cadre d’IA incarnée permettant à un humain numérique d’agir de manière autonome dans des environnements 3D inconnus uniquement par perception visuelle. Auparavant, les systèmes d’humains numériques dépendaient généralement de scripts prédéfinis ou d’informations d’état privilégiées, VGHuman part du principe de donner de véritables yeux à l’humain numérique, lui permettant de voir, planifier et agir par lui-même. Le cadre se compose de deux couches. La couche mondiale (World Layer) reconstruit à partir de vidéos monoculaires une scène 3D de champ gaussien avec annotations sémantiques et maillage de collision, la conception de perception d’occlusion lui permettant d’identifier de petits objets occultés même dans des environnements extérieurs complexes. La couche agent (Agent Layer) équipe l’humain numérique d’une perception RGB-D (couleur + profondeur) en première personne, générant des plans via des indices visuels de perception spatiale et une inférence itérative, qui sont finalement transformés par un modèle de diffusion en une séquence d’actions corporelles pour entraîner le mouvement du personnage. Sur la base de 200 scénarios de test de navigation, dans trois niveaux de difficulté : chemins simples, contournement d’obstacles et piétons dynamiques, VGHuman affiche un taux de réussite supérieur d’environ 30 points de pourcentage par rapport à des lignes de référence très performantes telles que NaVILA, NaVid, Uni-NaVid, tout en maintenant un taux de collision égal ou inférieur. Le cadre supporte également diverses styles de mouvement comme la course, le saut, ainsi que la planification à long terme pour atteindre plusieurs objectifs successifs. Le code et les modèles seront open source, un dépôt GitHub a été créé. (Source : BlockBeats)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
WCTCTradingKingPK
443.39K Popularité
#
USSeeksStrategicBitcoinReserve
58.69M Popularité
#
IsraelStrikesIranBTCPlunges
37.24K Popularité
#
BitcoinETFOptionLimitQuadruples
981.52K Popularité
#
#FedHoldsRateButDividesDeepen
30.62K Popularité

Épingler

La recherche conjointe de cinq universités permet aux personnes numériques de naviguer de manière autonome dans des scènes 3D par la vision, avec un taux de réussite supérieur d'environ 30 points de pourcentage à la ligne de base optimale.

Sujets populaires

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Épingler