Pourquoi les robots "dérapent-ils" toujours dans le monde réel ? Deux articles de Qunhe à la CVPR proposent une nouvelle solution

robot
Création du résumé en cours

Récemment, la conférence internationale de premier plan en vision par ordinateur, CVPR 2026, a annoncé ses résultats. Deux articles co-rédigés par Qunhe Technology en collaboration avec l’Université du Zhejiang et Yushu Technology ont été sélectionnés, portant sur un cadre d’apprentissage tout au long de la vie pour l’intelligence incarnée et une référence pour la raison spatiale dans les modèles de vision-langage. CVPR est considéré comme “l’Oscar de la vision par ordinateur”, rassemblant chaque année les résultats de recherche les plus avancés en IA dans le monde entier. Cette année, 16 092 soumissions ont été reçues, dont 4 090 ont été acceptées, soit un taux d’acceptation de 25,42 %.

Comment les robots deviennent-ils “de plus en plus intelligents à l’usage” ? Le cadre Arcadia réalise une boucle d’apprentissage pour l’intelligence incarnée

Parmi eux, l’article « Arcadia : Vers un cadre de cycle de vie complet pour l’apprentissage incarné tout au long de la vie » propose un cadre de boucle de vie complète pour l’apprentissage continu de l’intelligence incarnée, nommé Arcadia, couvrant la collecte de données, l’entraînement des modèles, jusqu’à leur auto-évolution et mise à jour des connaissances après déploiement. Il s’agit principalement d’explorer comment faire en sorte que les robots, comme les humains, “apprennent tout au long de leur vie” dans un environnement en constante évolution.

Dans ce cadre, Qunhe Technology a exploité ses avantages clés en reconstruction et génération spatiale. Grâce à son grand modèle SpatialLM développé en interne, le système peut analyser efficacement les données multimodales des capteurs recueillies par le robot en informations sémantiques structurées ; en combinant la capacité de génération spatiale de SpatialGen, le système peut automatiquement créer des scènes 3D simulées riches. Ensuite, via la plateforme d’entraînement spatial SpatialVerse, il simule les propriétés physiques et augmente les données, offrant ainsi un “terrain d’entraînement” massif et physiquement cohérent pour le robot.

Les résultats expérimentaux montrent que, lors du test en zéro-shot dans le monde réel avec le robot humanoïde G1 de Yushu, le cadre Arcadia a obtenu des performances remarquables : un taux de réussite de 46 % pour la navigation et de 27 % pour les tâches d’opération. Par rapport à des solutions open source populaires comme NaVILA et OpenVLA, ses performances globales ont été multipliées par environ 3, notamment dans des scénarios complexes tels que la navigation multi-objets et la manipulation collaborative.

L’IA comprend-elle vraiment l’espace ? SpatiaLQA construit un “examen” pour la raison spatiale dans les modèles vision-langage

L’article « SpatiaLQA : Un benchmark pour évaluer la raison spatiale dans les modèles vision-langage » s’intéresse à une question plus fondamentale : l’IA comprend-elle réellement l’espace ?

Les modèles vision-langage d’aujourd’hui sont déjà très puissants. Ils excellent dans “comprendre ce qu’il y a” (reconnaissance et description d’objets) et “répondre à pourquoi” (questions abstraites / raisonnement de connaissances générales). Mais dans des tâches du monde physique réel, face à des problèmes comme les relations d’occlusion, les contraintes de position relative ou la détermination de l’ordre des opérations, leurs limites apparaissent souvent.

Par exemple, lorsqu’un robot effectue une tâche de rangement d’étagère, il doit identifier précisément quels livres sont des points de support et quels objets décoratifs peuvent être déplacés indépendamment — une erreur dans la compréhension de la logique spatiale peut entraîner la chute de toute une rangée d’objets en retirant un seul livre. La référence SpatiaLQA ne fournit pas seulement un ensemble de données d’évaluation couvrant diverses relations logiques spatiales, mais définit également systématiquement des indicateurs d’évaluation.

Il est important de noter que la capacité de compréhension spatiale de SpatialLM de Qunhe Technology a été un support technologique clé pour la construction de la référence SpatiaLQA.

Au cours des dernières années, les grands modèles ont principalement transformé le monde numérique. La génération et la compréhension de textes, d’images et de vidéos ont été profondément remodelées par l’IA. Mais pour que l’IA pénètre dans le monde physique, la capacité essentielle requise est la compréhension et l’interaction avec l’espace physique, ce qui fait défaut aux modèles de langage actuels.

De ce point de vue, ces deux articles sélectionnés abordent deux enjeux clés : le cadre Arcadia résout la question de “comment les robots peuvent-ils continuer à apprendre pour s’adapter au monde réel” et SpatiaLQA répond à “comment mesurer la compréhension de l’IA de la logique spatiale”. Ils indiquent tous deux qu’une intelligence spatiale est en train de devenir le “pont clé” permettant à l’IA de passer du monde numérique au monde physique. Dans ce processus, Qunhe Technology reste un pont essentiel reliant le monde numérique et le monde physique.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler