La concurrence dans l'intelligence incarnée entre dans une nouvelle phase. Avec le lancement par Unitree Technology du grand modèle incarné WVLA2.0 et la réalisation d'une démonstration en conditions réelles sans téléopération, l'industrie prend de plus en plus conscience que le véritable obstacle de cette compétition ne réside pas simplement dans la taille du modèle, mais dans une capacité full-stack couvrant une architecture à faible latence, une intégration logiciel-matériel et une accumulation de données réelles.

Selon un rapport de recherche de Nomura International publié le 28 juin, des analystes ont visité Unitree sur le terrain le 15 juin. Lors de la démonstration, le robot G1 équipé du WVLA2.0 (World-model Vision-Language-Action) a réalisé de manière autonome six tâches consécutives dans un environnement de salle de réunion perturbé, sans téléopération, avec une boucle d'inférence d'environ 90 ms, soit environ dix itérations par seconde. Il s'agit de la première version d'Unitree en deux ans de R&D présentant un potentiel de déploiement commercial. La direction a identifié la fabrication industrielle — assemblage de moteurs d'articulation, chargement/déchargement et traitement des montages — comme le premier scénario de commercialisation, et considère les données massives issues de la flotte mondiale de robots comme un actif central.

Le rapport de Nomura a également présenté le cadre architectural NeuralAxis publié par NXP au COMPUTEX 2026. Ce cadre, proposé par le président et PDG de NXP, Rafael Sotomayor, partage une vision très similaire à l'approche technique d'Unitree : le véritable goulot d'étranglement de l'IA physique ne réside pas dans l'échelle d'inférence des modèles de langage, mais dans la capacité à construire une couche de contrôle périphérique semblable aux réflexes de la moelle épinière humaine, avec une latence aussi faible que 40 ms.

Ces évolutions ont une implication directe pour les investisseurs : le paysage concurrentiel de l'intelligence incarnée passe de « quel modèle est le plus fort » à « quel système est le plus complet ». Le fossé qu'Unitree construit avec une intégration full-stack auto-développée et des données réelles constitue un avantage difficile à reproduire pour les fournisseurs de modèles purement cloud.

NeuralAxis : Redéfinir les limites architecturales des systèmes d'IA physique

Le cadre NeuralAxis (architecture des axes neuronaux) de NXP s'inspire du système nerveux humain et divise la logique de contrôle de l'IA physique en trois niveaux découplés mais coordonnés : la couche d'inférence correspondant au cortex cérébral (latence d'environ 300 ms), la couche de coordination correspondant au cervelet (chargée du contrôle moteur et de l'équilibre), et la couche réflexe correspondant à la moelle épinière — avec une latence aussi faible que 40 ms, déployée sur le périphérique près des actionneurs.

Pour les robots humanoïdes, ce cadre a les implications les plus profondes.

NeuralAxis préconise de remplacer le « cerveau central » centralisé par des processeurs réflexes distribués — en déployant des capacités de décision locales dans les articulations, les mains et les pieds pour des actions telles que le contrôle de la force de préhension et l'équilibre de la cheville, avec une récupération en chaîne de l'équilibre, de la préhension, de la posture et de la démarche en moins de 40 ms. Le découplage de l'inférence et du contrôle moteur permet également d'ajouter continuellement de nouvelles compétences tout en maintenant la stabilité motrice.

Les extensions commerciales de ce cadre méritent également l'attention. Selon l'étude de marché de Nomura, par rapport aux solutions d'automatisation traditionnelles, l'architecture NeuralAxis peut apporter des gains significatifs d'efficacité de fabrication, et les ventes de robots de diagnostic devraient également croître fortement. De plus, la même architecture peut réduire la latence de bout en bout des drones à moins de 20 ms et diviser la logique de contrôle des voitures définies par logiciel en zones d'exécution d'inférence, de coordination et de sécurité critique.

WVLA2.0 : Une voie de déploiement intégrant modèles et synergie logiciel-matériel

L'approche technique du WVLA2.0 d'Unitree reflète une divergence nette avec le courant dominant de l'industrie.

Alors que la plupart des solutions concurrentes misent sur la génération purement VLA (Vision-Langage-Action) de bout en bout, le WVLA2.0 fusionne la capacité de prédiction du modèle WMA (World-Model Action) avec la génération d'actions du VLA, offrant une mise à niveau complète en matière de compréhension de tâches de haut niveau, de raisonnement spatial 2D/3D, de génération d'actions contraintes par la dynamique et de robustesse aux perturbations.

Au niveau perceptif, le système intègre quatre flux visuels parallèles : une caméra de profondeur RealSense, un LiDAR Livox MID360 et deux caméras latérales, construisant une représentation spatiale à 360 degrés, avec un délai de mise à jour de position inférieur à 10 ms en conditions perturbées. En matière de conception synergique logiciel-matériel, les paramètres d'action après inférence sont envoyés via le bus CAN aux 23 degrés de liberté du G1. Grâce au module de contrôle moteur « cervelet » auto-développé par Unitree, l'erreur de positionnement pour la saisie d'un objet de moins de 2 kg avec un seul bras peut être maintenue en dessous de 5 mm.

Sur le plan architectural de calcul, le WVLA2.0 réduit la puissance de calcul périphérique à moins de 100 TOPS et fonctionne entièrement sur le NVIDIA Jetson Orin NX embarqué sur le G1 EDU, sans dépendance au cloud. La direction indique que cette conception évite les risques d'interruption de tâche dus à la latence réseau ou à la déconnexion.

Changement de paradigme des données : « l'acquisition sans corps » devient la norme

La transformation du mode d'acquisition des données est un autre signal important de ce rapport.

La démonstration d'Unitree montre que, lors d'un seul enregistrement sans intervention de téléopération, le G1 peut effectuer de manière autonome plusieurs tâches consécutives dans un environnement perturbé, ce qui signifie que « l'acquisition de données sans corps » devient le paradigme dominant de production de données pour l'intelligence incarnée : le robot accumule des données par sa propre perception et décision, sans dépendre de l'annotation par téléopération humaine.

L'étude de marché de Nomura souligne également les limites actuelles : le système présente encore des angles morts et des lacunes de perception arrière, une vitesse d'exécution lente, une précision insuffisante pour les opérations fines, et manque de données de référence quantifiées sur le taux de réussite continu. Ces lacunes définissent également les priorités de déploiement commercial à court terme.

En conséquence, la direction a établi une feuille de route de déploiement par étapes : la fabrication industrielle (assemblage de moteurs d'articulation, chargement/déchargement, traitement des montages) est identifiée comme le premier point d'atterrissage, car l'usine propre d'Unitree permet une boucle de données fermée ; viennent ensuite le tri logistique et l'assemblage flexible 3C ; les scénarios domestiques et de soins médicaux, en raison de la difficulté nettement plus élevée des environnements ouverts non structurés, sont considérés comme un objectif à plus long terme.

Intégration full-stack : les deux dimensions du fossé différenciateur d'Unitree

La conclusion centrale du rapport de Nomura peut se résumer à un jugement : dans le processus de commercialisation de l'intelligence incarnée, la capacité du modèle est certes importante, mais elle n'est pas la seule variable déterminante.

La direction d'Unitree définit la compétitivité différenciée de l'entreprise sur deux niveaux : d'une part, la capacité d'intégration full-stack auto-développée, de la perception au modèle en passant par le contrôle moteur ; d'autre part, l'accumulation de données massives issues de la flotte mondiale de robots. Ces deux actifs se renforcent mutuellement — le matériel auto-développé génère des données exclusives, qui alimentent à leur tour l'itération du modèle, créant une boucle fermée difficile à pénétrer pour les fournisseurs de modèles cloud.

Du point de vue du paysage concurrentiel, la logique de déploiement du cadre NeuralAxis et du WVLA2.0 converge vers la même conclusion : le champ de bataille central de l'intelligence incarnée se déroule simultanément au niveau de l'architecture système et de l'accumulation de données. Pour les investisseurs, l'évaluation des acteurs doit passer d'une simple « capacité de modèle » à une capacité d'intégration système plus complète et à l'échelle des données réelles.


Ce contenu passionnant provient de la plateforme de trading ZHUIFENG.

Pour des analyses plus détaillées, incluant des interprétations en temps réel et des recherches de première ligne, veuillez rejoindre [**Membre annuel de la plateforme de trading ZHUIFENG**]

![](https://img-cdn.gateio.im/social/moments-f187f887a1-07b7e18c28-8b7abd-62a40f)

Avertissement de risque et clause de non-responsabilité

          

            Le marché comporte des risques, l'investissement doit être prudent. Ce document ne constitue pas un conseil d'investissement personnel et ne tient pas compte des objectifs d'investissement, de la situation financière ou des besoins particuliers de certains utilisateurs. Les utilisateurs doivent déterminer si les opinions, conseils ou conclusions contenus dans ce document correspondent à leur situation spécifique. Tout investissement basé sur ce document est effectué sous votre propre responsabilité.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
TradFiCFDGoldMaster
2,22M Popularité
#
SaylorHintsAtMoreBTC
8,5M Popularité
#
IsraelStrikesIranBTCPlunges
66,23K Popularité
#
PredictWorldCupShare20000U
474,79K Popularité
#
SolanaEcosystemANSEMSurges
22,01M Popularité

Épinglé

Yushu valide une nouvelle tendance : le champ de bataille central de l’intelligence incarnée ne se limite pas aux modèles.

NeuralAxis : Redéfinir les limites architecturales des systèmes d'IA physique

WVLA2.0 : Une voie de déploiement intégrant modèles et synergie logiciel-matériel

Changement de paradigme des données : « l'acquisition sans corps » devient la norme

Intégration full-stack : les deux dimensions du fossé différenciateur d'Unitree

Sujets populaires

TradFiCFDGoldMaster

SaylorHintsAtMoreBTC

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

SolanaEcosystemANSEMSurges

Épinglé