Alibaba a présenté des modèles d'IA pour la gestion des robots - ForkLog

Tool_AI# Alibaba a présenté des modèles d'IA pour la gestion de robots

Alibaba a présenté Qwen-Robot Suite — un ensemble de modèles d'IA pour les robots et les tâches en environnement physique : Qwen-RobotNav pour la navigation, Qwen-RobotManip pour les actions avec des objets et Qwen-RobotWorld pour la prévision du développement de la scène. L'équipe a décrit le projet comme « une pile complète pour l'intelligence incarnée ».

📣 Présentation du Qwen-Robot Suite — Qwen-RobotNav, Qwen-RobotManip, Qwen-RobotWorld, trois modèles fondamentaux, une pile complète pour l'intelligence incarnée.

🧭 Qwen-RobotNav — la porte d'entrée vers la mobilité.
• Unifie 5 tâches de navigation dans un seul modèle : suivi d'instructions, déplacement vers un point,… pic.twitter.com/noumjTtTeS

— Qwen (@Alibaba_Qwen) 16 juin 2026

Il s'agit de modèles logiciels destinés à aider des agents physiques à percevoir leur environnement, planifier des actions et exécuter des commandes en langage naturel. Qwen-Robot Suite est déjà en phase de pilotes chez certains clients d'entreprise d'Alibaba Cloud dans le domaine de la robotique.

Pourquoi Alibaba introduit Qwen dans le monde physique

Les grands modèles linguistiques et multimodaux savent déjà traiter du texte, des images, des vidéos et de la parole, mais cela ne suffit pas pour les robots. Les agents physiques doivent non seulement comprendre la commande, mais aussi la traduire en mouvement, prendre en compte l'espace, les propriétés des objets, les limitations des capteurs et les conséquences des actions.

Alibaba qualifie cela de domaine de l'IA physique, ou « IA incarnée ». Dans cette approche, le modèle doit fonctionner non seulement avec des données numériques, mais aussi avec l'environnement physique : se déplacer, localiser des objets, contrôler des manipulateurs et prévoir ce qui se passera après une action.

Qwen-RobotNav : cinq tâches de navigation dans un seul modèle

Qwen-RobotNav est responsable de la navigation. Le modèle combine cinq groupes de tâches :

  • suivre des instructions ;
  • se déplacer vers un point donné ;
  • rechercher des objets ;
  • suivre une cible ;
  • conduite autonome.

Selon Alibaba, Qwen-RobotNav est basé sur Qwen3-VL et a été entraîné sur 15,6 millions d'exemples liés à la planification de trajets et au raisonnement visuel-linguistique.

L'entreprise a déclaré un taux de réussite de 76,5 % sur VLN-CE RxR et de 90 % sur EVT-Bench. Alibaba a également précisé que le modèle peut fonctionner comme un outil pour des systèmes d'agents plus complexes : un modèle de haut niveau planifie la tâche, et Qwen-RobotNav s'occupe du déplacement.

Source : Qwen. Lors des démonstrations, Alibaba décrit des scénarios tels que la recherche d'un objet perdu dans un bâtiment ou la vérification si un objet spécifique est ouvert dans un bâtiment. Dans ces tâches, le robot doit non seulement se déplacer, mais aussi collecter des preuves visuelles et fournir une réponse à l'utilisateur.

Qwen-RobotManip : actions sur les objets

Qwen-RobotManip est destiné aux actions physiques avec des objets. Le modèle doit aider les robots à saisir, déplacer et positionner des objets, ainsi qu’à transférer des compétences entre différents types d’appareils.

Source : Qwen-RobotManip. Un des principaux problèmes en robotique est que les robots décrivent les actions de différentes manières. Un manipulateur, une plateforme à deux bras, un robot avec une pince ou un système mobile utilisent des coordonnées, des articulations et des formats de commandes différents. Qwen-RobotManip tente d’unifier ces données pour que l’apprentissage sur un type de robot profite à un autre.

Pour l’entraînement, Alibaba a utilisé plus de 38 100 heures de données. Ce volume inclut 11 320 heures de données robotiques ouvertes, 1933 heures de vidéos d’actions humaines en première personne et 24 808 heures de démonstrations robotiques synthétiques créées à partir de ces vidéos.

L'entreprise a déclaré que le modèle a obtenu la première place au RoboChallenge Table30 v1 dans la catégorie des modèles universels. Selon Alibaba, Qwen-RobotManip a également montré une robustesse face à de nouvelles instructions, des objets inconnus et au transfert de compétences entre différents robots.

Qwen-RobotWorld : modèle du monde pour les robots

Qwen-RobotWorld est un modèle vidéo du monde, contrôlé par le langage naturel. Il doit prévoir comment la scène évoluera après une action donnée.

Source : Qwen-RobotWorld. Par exemple, le modèle reçoit la observation actuelle et une commande textuelle, puis génère un état futur probable de l’environnement. Cette approche peut être utilisée pour la manipulation, la conduite autonome, la navigation, la planification et la création de données synthétiques pour l’apprentissage des robots.

Pour l’entraînement, l’équipe a constitué un corpus appelé Embodied World Knowledge. Il comprend 8,6 millions de paires « vidéo-texte » et plus de 200 millions d’images, couvre plus de 20 types de plateformes robotiques et plus de 500 catégories d’actions.

Alibaba a déclaré que Qwen-RobotWorld a obtenu la première place dans EWMBench et DreamGen Bench, surpassant tous les modèles ouverts dans WorldModelBench et PBench. La description technique affirme également que le modèle montre une forte cohérence avec les lois physiques fondamentales — mouvement, conservation de la masse, liquides et gravité.

La robotique de masse est encore loin

Malgré les résultats annoncés, Qwen-Robot Suite reste pour l’instant un ensemble de modèles, et non une plateforme robotique prête à l’emploi. La mise en œuvre réelle doit faire face au bruit des capteurs, à l’usure des actionneurs, à des situations imprévues, à des erreurs de perception et à un grand nombre de scénarios rares. Beaucoup de benchmarks utilisés pour comparer ces systèmes se déroulent en simulation ou dans des conditions expérimentales limitées.

Alibaba n’a pas non plus révélé le coût d’accès, les délais de lancement public ni la liste des clients qui testent déjà Qwen-Robot Suite.

Rappelons qu’en avril, Alibaba Cloud a présenté le modèle d’agent Qwen3.6-Plus avec une fenêtre de contexte de 1 million de tokens et la prise en charge d’outils externes.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé