Dialogue avec Tang Wenbin d'Originforce Lingji : La route pure du « modèle du monde » n'est pas viable

Une « guerre de données » implicite sur l’intelligence incarnée est en train de se déclencher discrètement.

En janvier de cette année, le Centre d’innovation en robot humanoïde du Hubei a fourni à Zhiyuan Robotics des milliers d’heures de données d’entraînement, réalisant la première transaction de données personnalisées pour robots humanoïdes en Chine.

Du côté des géants du secteur, JD.com a récemment annoncé son objectif de créer le plus grand centre mondial de collecte de données pour l’intelligence incarnée, avec le plan de mobiliser plus de 100 000 employés internes et jusqu’à 500 000 externes, lançant une « guerre de masse » sans précédent.

En regardant à l’étranger, la société sud-coréenne Robotis a créé une filiale en Ouzbékistan en janvier, avec pour projet de construire une gigantesque « usine de données » sur un terrain de 110 000 m² pour collecter des données sur le comportement des robots.

Transactions personnalisées facturées à l’heure, mobilisation de centaines de milliers de personnes, construction d’usines en Asie centrale : cette série d’initiatives reflète la lourde « anxiété des données » qui pèse sur l’ensemble du secteur de l’intelligence incarnée.

Contrairement aux grands modèles linguistiques développés à partir de corpus internet, l’intelligence incarnée nécessite de comprendre le monde et d’interagir avec le monde réel, ce qui impose des exigences plus élevées en termes de véracité des données, de modalités, etc.

C’est également l’un des défis majeurs que le fondateur et CEO de Yuanli Lingji, Tang Wenbin, s’efforce de relever actuellement.

En retraçant son parcours, Tang Wenbin est surtout connu comme le co-fondateur et CTO de Megvii, le « unicorn » star de la dernière vague d’IA.

En seulement un an, Yuanli Lingji a déjà levé plus de 1 milliard de yuans, obtenant des investissements de grandes institutions telles qu’Alibaba, NIO, Junlian, Qiming, etc.

Actuellement, Yuanli Lingji a lancé son premier grand modèle natif pour l’intelligence incarnée, DM0, et a conclu un partenariat stratégique avec Huachin Technology pour la production en série et la livraison du robot de collecte de données DOS‑W1.

Après l’expérience de la première vague d’implémentation de l’IA, Tang Wenbin a développé une plus grande révérence pour l’industrie.

Dans un entretien récent avec Wallstreetcn et All-weather Tech, il a partagé sa vision de la collecte de données : ne pas dépendre d’une seule source, mais adopter une stratégie distribuée combinant « qualité✖, quantité✖, diversité✖ », pour remplir l’espace de capacités du robot.

Concernant la génération de données via un modèle du monde, permettant au robot d’apprendre par imitation, Tang Wenbin pense que cette voie est difficile à suivre. Il privilégie une approche plus faisable : fusionner le modèle du monde avec un modèle VLA (Vision-Language-Action), capable non seulement de prévoir le futur, mais aussi de déduire précisément les actions nécessaires.

Alors que les acteurs du secteur accumulent frénétiquement des « stocks » de données à leur manière, le marché attend de voir quelle stratégie remportera la victoire.

Voici le transcript de l’entretien.

Détails sur la collecte de données

All-weather Tech : Pouvez-vous partager votre approche de collecte de données ?

Tang Wenbin : Pour l’instant, nous imitons la méthode par renforcement.

L’imitation implique de simuler la distribution des données. Notre objectif est de remplir au maximum l’espace de capacités du robot avec des données variées. L’essentiel est la capacité à gérer des scénarios inconnus. La valeur des données réside dans cela, c’est pourquoi notre collecte se concentre sur des environnements ouverts et des scénarios réels.

Mais nous souhaitons que les données soient de haute qualité tout en couvrant le plus possible cet espace, donc je pense que la collecte de données est une combinaison de « qualité✖, quantité✖, diversité ».

All-weather Tech : Comment collectez-vous concrètement ces données ?

Tang Wenbin : En réalité, nous ne dépendons pas d’une seule source. C’est une approche combinée. Pour les données réelles, nous utilisons principalement divers capteurs calibrés, comme des exosquelettes, mais cela coûte assez cher.

Nous collectons aussi des données via des perspectives sans corps et en première personne, pour constituer un ensemble plus vaste, ce qui se situe entre données réelles et synthétiques.

En plus, nous utilisons aussi des données internet à moindre coût.

All-weather Tech : Pouvez-vous expliquer plus en détail la collecte sans corps ?

Tang Wenbin : Sans corps, cela signifie qu’il peut s’agir d’un gant ou d’une pince manuelle, sans bras mécanique ni corps de robot. C’est comme utiliser uniquement un dispositif terminal. Je note la position et l’état approximatifs de ce dispositif. Cette méthode est aussi appelée UMI.

Aujourd’hui, la première personne vue par des données de caméra portée, comme des lunettes, est aussi une forme de collecte sans corps.

All-weather Tech : Les données de l’AI glasses sont très privées, personne ne souhaite probablement partager ses données. Comment résolvez-vous ce problème ?

Tang Wenbin : Effectivement, en tant qu’utilisateur de lunettes, je ne voudrais pas partager mes données. Mais pour l’entraînement, on peut faire appel à des collecteurs tiers qui enregistrent leur travail en portant ces lunettes. Ces données seront aussi enregistrées.

On souhaite aussi que les lunettes soient plus puissantes, avec par exemple une vision stéréoscopique ou des capacités multi-fonctions. À l’avenir, on pourrait aussi ajouter des dispositifs comme des bracelets ou des gants pour la collecte.

Globalement, nos objets de collecte sont variés : première catégorie, le robot lui-même, contrôlable à distance ; deuxième, des dispositifs sans corps comme des pinces, combinant « corps humain + extrémité robot » ; troisième, la collecte ciblant directement le corps humain ; quatrième, la description du monde physique.

All-weather Tech : Par exemple, dans les capteurs en bout de bras, on collecte surtout des données de force ?

Tang Wenbin : Pas seulement la force, on veut aussi des données multimodales, comme l’ajout de perspectives visuelles.

Concrètement, pour éviter que le bras ne masque certaines données, on peut équiper la tête d’une caméra, et chaque poignet peut aussi avoir deux caméras, pour une collecte multi-vues.

All-weather Tech : Ce genre de collecte coûte-t-il cher ?

Tang Wenbin : C’est une question complexe de qualité, quantité et diversité. Si on veut tout collecter, le coût devient très élevé. C’est pourquoi on adopte une stratégie distribuée : on garantit la complétude pour certains types de données, et pour d’autres, on privilégie la rapidité, la quantité, tout en réduisant les coûts.

C’est une question d’équilibre. On dispose de nos propres outils de collecte et collaborons largement avec d’autres industries.

All-weather Tech : En février, vous avez lancé un robot de collecte avec Huachin. Pouvez-vous en parler ?

Tang Wenbin : Ce robot est principalement destiné à la recherche, avec une forme similaire à ALOHA (système open-source à faible coût pour la téléopération bimanuale). D’autres aussi travaillent sur ce sujet.

Mais le marché actuel a deux gros problèmes avec ces robots : la fiabilité et le coût.

Concernant la fiabilité, la performance n’est pas encore satisfaisante, avec des pannes fréquentes qui nuisent à la recherche et à l’efficacité.

Nous avons simplifié la réparation en concevant une structure modulaire, permettant de changer rapidement une pièce défectueuse, souvent en 30 secondes, grâce à des connecteurs à rotation plutôt qu’à vis.

Pour le coût, nous avons collaboré avec Huachin pour concevoir une version similaire à ALOHA, supportant une opération maître-esclave, avec un prix abordable et une réparation rapide. (Note : « maître » et « esclave » désignent ici la commande à distance en temps réel, pour une opération précise à faible coût.)

All-weather Tech : Des concurrents ont-ils déjà acheté ce robot pour la collecte ?

Tang Wenbin : Oui, le problème est commun dans l’industrie, tout le monde achète des produits similaires pour compléter leurs propres systèmes.

La voie du modèle du monde est infructueuse

All-weather Tech : Pouvez-vous donner votre avis sur le modèle du monde et VLA ?

Tang Wenbin : Il faut distinguer deux choses : comprendre le monde et le générer.

Les grands modèles actuels, on s’intéresse surtout à leur capacité à comprendre le monde. Le modèle du monde tente de prévoir le futur, comme la prochaine image ou scène, tandis que VLA consiste à interagir avec le monde.

Ces modèles ont des points communs, mais abordent les problèmes sous des angles différents.

Nous pensons que la meilleure stratégie est de combiner les deux. C’est la seule façon de vraiment comprendre, générer du contenu, et interagir avec le monde.

Théoriquement, si on peut prévoir le futur, on peut déduire comment agir. Et si on sait comment agir, cela signifie qu’on peut prévoir le futur.

Dans notre cadre actuel, le modèle du monde et VLA sont fusionnés : on veut qu’un seul modèle comprenne le monde et prévoie la suite.

Ainsi, le modèle peut non seulement exécuter des actions, mais aussi prévoir comment le monde changera après.

All-weather Tech : La structure technologique des autres entreprises est-elle différente ?

Tang Wenbin : Oui, certaines entreprises prônent uniquement le modèle du monde. Certains pensent que générer des données via ce modèle permet à un robot d’apprendre par imitation, créant ainsi une source infinie de données.

Mais je pense que cette voie est vouée à l’échec. Si le modèle du monde est déjà parfait, la génération de données n’a plus de sens, et il n’est pas nécessaire de réentraîner le robot avec ces données.

L’autre approche, que beaucoup suivent, consiste à prédire le futur avec le modèle du monde, puis à en déduire les actions nécessaires. Cela implique de prévoir la scène ou l’état futur, puis de calculer la séquence d’actions. C’est la fusion que je mentionnais plus tôt, une approche unifiée.

All-weather Tech : Sur le plan des scénarios, avec la haute automatisation des usines, les robots ont-ils moins de place ?

Tang Wenbin : Les solutions d’automatisation en usine sont très matures aujourd’hui. Mais notre objectif est de résoudre des problèmes que l’automatisation ne peut pas encore traiter, ou dont le coût est trop élevé.

En réalité, beaucoup de lignes automatisées ne nécessitent pas une grande généralisation : peu d’objets, environnement contrôlé, conditions stables. Par exemple, quelques SKU, éclairage réglé.

Les vrais défis sont la diversité des objets, la variabilité de l’environnement, et la multiplicité des tâches.

Prenons la logistique : les robots y font surtout du transport, mais leur manipulation est limitée, car cela demande une grande généralisation.

Par exemple, acheter une bouteille de soda et un paquet de chips, puis les emballer séparément. La diversité des produits et la variabilité des conditions rendent cela difficile à automatiser.

Même pour l’emballage, comme pour un flacon de gel douche, on met une couche de film plastique pour éviter les fuites. Actuellement, cela se fait souvent manuellement, par expérience, avec du film plastique, puis dans un sac, avec étiquetage. Impossible à automatiser facilement.

Nous expérimentons principalement dans la logistique et l’industrie.

All-weather Tech : Préférez-vous développer dans un seul scénario ou plusieurs en parallèle ?

Tang Wenbin : Il faut voir en deux temps. Avec l’évolution des grands modèles, on constate une tendance claire : un seul modèle vertical ne peut pas atteindre une véritable généralisation. C’est impossible.

Donc, du point de vue du modèle, il faut viser la généralisation, une capacité plus universelle.

Mais, pour la mise en pratique, il faut d’abord se concentrer sur un scénario à la fois, puis étendre.

Notre principe est que la mise en œuvre doit répondre à deux critères : d’abord, le système doit être en boucle fermée, c’est-à-dire couvrir tous les problèmes et anomalies du client ; ensuite, le coût doit rester maîtrisé pour que la collaboration soit rentable.

Ce n’est qu’en respectant ces deux points que le client envisagera une application à grande échelle.

Chaque scénario est une étape, en comprenant bien la valeur pour le client et en assurant ces deux conditions. C’est un processus de commandes annuel.

On voit cela comme une relation entre développement du modèle et déploiement pratique, avec un angle d’environ 45°, c’est-à-dire une relation liée mais pas totalement dépendante.

Naturellement, notre modèle doit évoluer vers une généralisation.

Il faut respecter chaque scénario

All-weather Tech : Donc, vous prônez une voie de robot universel ?

Tang Wenbin : Je pense que le modèle peut être général, mais le hardware est très difficile à rendre universel.

Nos deux mains sont très flexibles : une peut faire des opérations précises, l’autre soulever 20 kg, voire 50 kg.

Mais, en physique et matériaux, un bras capable de soulever 2 kg et un autre de 20 kg ne sont pas conçus de la même manière, leur densité de puissance étant différente.

On pense qu’un design universel appliqué à tous les scénarios est souvent sous- ou sur-dimensionné.

Un bras roulant avec un centre de gravité élevé va plus vite, mais difficile à arrêter, sinon il tombe.

Dans certains cas, rester immobile peut être plus avantageux, laisser un véhicule transporter l’objet.

Il y a donc un risque de sur-dimensionnement.

Notre philosophie est de rendre le modèle adaptable à différents matériels, tout en conservant une certaine universalité.

All-weather Tech : Donc, les investisseurs misent surtout sur votre capacité à faire des modèles ?

Tang Wenbin : Oui, notre force réside dans la recherche à la fois sur la robotique et sur les modèles. Nous avons une expérience solide dans la logistique chez Megvii, avec une équipe spécialisée dans l’optimisation de modèles.

All-weather Tech : Beaucoup d’entreprises connaissent bien leur secteur, mais vous, qui avez commencé par le modèle, avez-vous une faiblesse dans la compréhension des scénarios ?

Tang Wenbin : En fait, chez Megvii, on a déjà travaillé sur beaucoup de scénarios. Je pense que nous sommes bien formés.

C’est une question d’état d’esprit : dans la robotique, il y a deux types de personnes. Ceux qui maîtrisent la technique, et ceux qui comprennent les scénarios. Nous sommes entre les deux.

Les techniciens peuvent faire beaucoup d’hypothèses sur les scénarios, mais la réalité est souvent plus complexe. Par exemple, en production, il ne faut pas arrêter la ligne en cas de problème, il faut une gestion d’exception efficace.

Donc, ceux qui travaillent sur la technique doivent respecter le contexte.

Mais l’industrie a aussi ses limites. Beaucoup de collègues pensent que la technique peut tout faire, puis, face à l’IA, ils attendent que tout soit résolu. Quand ce n’est pas le cas, ils sont déçus et reviennent à des méthodes classiques, basées sur des règles.

Mais le développement actuel de l’IA n’est ni tout-puissant ni inutile. C’est une étape intermédiaire, avec une pente d’apprentissage très forte, en rapide évolution.

Nous avons besoin de personnes capables d’évaluer les scénarios, de comprendre l’algorithme et sa vitesse d’évolution. Et aussi de concevoir comment aborder les problèmes pour lancer rapidement des projets.

Tout notre travail consiste à répondre à des besoins. Nous avons nos limites, c’est évident.

Je prône une large formation, une observation multi-angle, mais aussi un jugement personnel pour choisir des scénarios durables.

All-weather Tech : Comment ciblez-vous votre clientèle ? Entre fabricants de robots ou utilisateurs finaux ?

Tang Wenbin : Principalement, ce sont les utilisateurs finaux.

Honnêtement, en Chine comme à l’étranger, la maturité des modèles est encore faible. Aujourd’hui, personne ne peut déployer un modèle directement sur un robot, après un entraînement simple.

Je pense qu’avant que les modèles ne soient matures, une intégration verticale est nécessaire pour la mise en œuvre.

Si on ne maîtrise pas le scénario, on ne peut pas espérer que nos partenaires ou clients le résolvent à notre place. C’est une illusion. Je crois qu’un jour, nous réaliserons certains scénarios en interne, et d’autres, plus nombreux, seront ouverts via une plateforme, en collaboration avec nos partenaires. Ils pourront utiliser notre hardware ou simplement notre « cerveau » pour explorer plus de possibilités.

All-weather Tech : Donc, votre open source de modèles, c’est pour que plus de gens participent ?

Tang Wenbin : L’open source a deux raisons. D’abord, on veut que plus de gens utilisent notre cadre et nos modèles, pour explorer ensemble de nouveaux scénarios et faire avancer la technologie. Ensuite, même si le secteur est très actif, la maturité des modèles est encore faible. Favoriser l’échange et la progression est essentiel.

All-weather Tech : Vous avez dit que votre objectif pour 2026 est de déployer 1000 appareils par scénario, en fonctionnement continu. Où en êtes-vous ?

Tang Wenbin : Cela devrait être réalisable d’ici la fin de l’année. Nous sommes encore en phase de POC.

Nous croyons beaucoup au potentiel de production en série dans nos scénarios propres.

Pour que le robot fonctionne en continu, il faut prévoir la tolérance aux erreurs. La méthode basée sur l’IA ne garantit pas encore une précision à 100 %.

Que faire en cas d’échec ? Il faut une solution. Nous devons définir comment reprendre la tâche, la récupérer, et évaluer l’impact de l’échec pour voir si c’est acceptable.

Après avoir prévu des solutions de secours, il faut aussi analyser le ROI global.

All-weather Tech : En parlant de ROI, les clients demandent-ils directement combien vous pouvez leur faire économiser sur la ligne ?

Tang Wenbin : En général, ils veulent surtout savoir quand ils récupèrent leur investissement.

Si le délai est supérieur à cinq ans, ils ne le feront pas.

Si c’est entre deux et trois ans, ils y vont tout de suite. Dans le contexte B2B actuel, nos décisions sont principalement rationnelles, en calculant combien d’efficacité on peut apporter. Par exemple, prolonger la fonctionnement d’une étape, mieux utiliser les équipements existants, apporter de la valeur au client.

All-weather Tech : Pouvez-vous nous donner un aperçu des futures mises à jour de vos modèles ?

Tang Wenbin : Cette année, notre focus sera sur la généralisation.

All-weather Tech : Vous avez lancé votre modèle pour l’intelligence incarnée il y a seulement un an, n’est-ce pas trop tard ?

Tang Wenbin : En réalité, on voulait faire un robot universel il y a plusieurs années, mais la technologie n’était pas mature. Avec le développement des grands modèles comme DeepSeek, je suis plus confiant.

All-weather Tech : Si vous deviez donner un mot-clé pour l’industrie de l’intelligence incarnée en 2026, ce serait quoi ?

Tang Wenbin : Deux mots : amélioration des capacités des modèles, et maintien opérationnel des scénarios.

Je pense que les modèles sont encore à un stade précoce, mais évoluent très vite. Il faut continuer à améliorer leur capacité algorithmique, notamment en termes d’adaptabilité aux objets, environnements, et à la généralisation des tâches. La capacité de généralisation est cruciale. Ensuite, pour l’application en scénarios, un simple POC n’a que peu de sens. C’est un début, mais l’enjeu est la continuité en conditions réelles. C’est le moment d’y parvenir cette année.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler