La recherche conjointe de cinq universités permet aux personnes numériques de naviguer de manière autonome dans des scènes 3D par la vision, avec un taux de réussite supérieur d'environ 30 points de pourcentage à la ligne de base optimale.

robot
Création du résumé en cours

ME News Actualités, le 14 avril (UTC+8), selon 1M AI News, une équipe conjointe de l’Université de Pékin, de l’Université Carnegie Mellon, de l’Université Tongji, de l’Université de Californie à Los Angeles et de l’Université du Michigan a publié sur arXiv VGHuman, un cadre d’IA incarnée permettant à un humain numérique d’agir de manière autonome dans des environnements 3D inconnus uniquement par perception visuelle. Auparavant, les systèmes d’humains numériques dépendaient généralement de scripts prédéfinis ou d’informations d’état privilégiées, VGHuman part du principe de donner de véritables yeux à l’humain numérique, lui permettant de voir, planifier et agir par lui-même. Le cadre se compose de deux couches. La couche mondiale (World Layer) reconstruit à partir de vidéos monoculaires une scène 3D de champ gaussien avec annotations sémantiques et maillage de collision, la conception de perception d’occlusion lui permettant d’identifier de petits objets occultés même dans des environnements extérieurs complexes. La couche agent (Agent Layer) équipe l’humain numérique d’une perception RGB-D (couleur + profondeur) en première personne, générant des plans via des indices visuels de perception spatiale et une inférence itérative, qui sont finalement transformés par un modèle de diffusion en une séquence d’actions corporelles pour entraîner le mouvement du personnage. Sur la base de 200 scénarios de test de navigation, dans trois niveaux de difficulté : chemins simples, contournement d’obstacles et piétons dynamiques, VGHuman affiche un taux de réussite supérieur d’environ 30 points de pourcentage par rapport à des lignes de référence très performantes telles que NaVILA, NaVid, Uni-NaVid, tout en maintenant un taux de collision égal ou inférieur. Le cadre supporte également diverses styles de mouvement comme la course, le saut, ainsi que la planification à long terme pour atteindre plusieurs objectifs successifs. Le code et les modèles seront open source, un dépôt GitHub a été créé. (Source : BlockBeats)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler