Alibaba lance le modèle Qwen-Robot à trois modèles ! Navigation, contrôle et simulation physique du robot en une seule étape

Alibaba Qwen équipe publie Qwen-Robot Suite, comprenant trois modèles fondamentaux : navigation, manipulation et simulation du monde physique, classés premiers dans plusieurs tests de référence robotique, considérés comme le Android du domaine robotique.
(Précédemment : Alibaba Qianwen a lancé le modèle « Qwen3.7-Plus » à prix réduit, mais sans ouvrir les poids)
(Contexte supplémentaire : Meta se lance dans les robots humanoïdes ! Acquisition secrète de la startup d’IA Assured Robot Intelligence, misant sur « l’interaction avec le monde physique » vers l’AGI)

Table des matières de cet article

Toggle

  • Qwen-RobotNav : modèle de navigation tout-en-un
  • Qwen-RobotManip : contrôle inter-robots
  • Qwen-RobotWorld : interface universelle basée sur le langage
  • Comparaison avec les laboratoires occidentaux ?

(Source : Decrypt, blog officiel de Qwen)

L’équipe Qwen d’Alibaba a publié mardi Qwen-Robot Suite, un ensemble de trois modèles fondamentaux formant une « pile complète d’intelligence incarnée ». Qwen-RobotNav gère la navigation, Qwen-RobotManip la manipulation mécanique, et Qwen-RobotWorld la simulation du monde physique. Ces trois modèles fonctionnent indépendamment, mais combinés ils forment le « Android » du domaine robotique, qui est un système d’exploitation, et non un matériel.

Qwen-RobotNav : modèle de navigation tout-en-un

Ce modèle intègre la reconnaissance de commandes, la navigation vers des points cibles, la recherche d’objets, le suivi d’objectifs et la conduite autonome, avec des stratégies visuelles différentes pour chaque tâche. La majorité des modèles se concentrent sur une seule stratégie, mais Qwen-RobotNav offre une interface paramétrable : budget de tokens, atténuation temporelle, poids par caméra, permettant au planificateur de reconfigurer en cours d’exécution.

Il a été entraîné sur 15,6 millions d’échantillons, avec un taux de réussite de 76,5 % sur le benchmark VLN-CE RxR (navigation visuelle et linguistique en environnement réel), et 90 % sur EVT-Bench (suivi d’objets en mouvement).

Qwen-RobotManip : contrôle inter-robots

Les modes d’action varient énormément selon le robot : le bras mécanique Franka utilise des angles articulaires, le robot à double bras ALOHA utilise la position et la direction des pinces, et le robot humanoïde utilise des coordonnées corporelles complètes. Alibaba a synthétisé environ 38 100 heures de données d’entraînement à partir de bases de données open source et de vidéos humaines, sans dépendre de données privées.

Ce modèle a obtenu la première place au benchmark RoboChallenge Table30-v1, surpassant de 20 % les méthodes précédentes.

Qwen-RobotWorld : interface universelle basée sur le langage

C’est le modèle le plus ambitieux, un modèle de monde vidéo conditionné par le langage, utilisant le langage naturel comme interface d’action universelle. « Prends le verre rouge et verse de l’eau sur la fleur » est une commande applicable aussi bien à une pince, une voiture autonome ou un agent de navigation mobile.

Le corpus de connaissances du monde incarné couvre 8,6 millions de correspondances vidéo-texte, 200 millions d’images, et traverse la manipulation (590 000 échantillons, plus de 1 300 compétences, plus de 20 formes), la conduite autonome (Waymo, NVIDIA PhysicalAI-AD), la navigation intérieure et le transfert homme-machine entre 14 types de bras robotisés. Le modèle obtient la première place sur les benchmarks EWMBench et DreamGen Bench, et un score parfait dans les tests de cohérence physique tels que les lois de Newton, la conservation de la masse, la dynamique des fluides et la gravité.

Comparaison avec les laboratoires occidentaux ?

Les laboratoires occidentaux comme Google DeepMind, Nvidia, Figure et Physical Intelligence poursuivent des objectifs similaires, mais se concentrent principalement sur la navigation ou la manipulation, plutôt que sur un ensemble modulaire et assemblable. La verticalisation d’Alibaba, du chip à l’application, lui confère un contrôle complet sur toute la chaîne écologique, et tous ces modèles sont open source.

Cependant, les développeurs rappellent que ce sont des modèles logiciels, et non des robots physiques, et leur déploiement dans des scénarios domestiques prendra encore plusieurs années. Alibaba n’a pas encore annoncé de prix, de calendrier ou de plans pilotes, ni de liste de clients au-delà.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé