Dialogue variable indépendante CTO Wang Hao : Pourquoi le « Saint Graal » de l'intelligence incarnée est-il la famille ?

Question

Auteur DaleRédactrice董雨晴« La famille est vraiment le Saint Graal de l’intelligence incarnée. » Le 30 mars 2026, dans la matinée, à Shenzhen, à l’Académie Zero One, le cofondateur et CTO de Zihbian Robot, Wang Hao, a formulé ce jugement lors d’une interview, notamment avec la plateforme Phoenix Net Technology. À ce moment-là, la première Conférence des développeurs de l’intelligence incarnée (EAIDC 2026) battait son plein : les 20 meilleures équipes qualifiées s’y rassemblaient. Les participants n’avaient que trois jours pour mener l’ensemble du processus, de la collecte des données depuis zéro, à l’entraînement du modèle, jusqu’au déploiement sur le robot réel.En 2026, alors que presque tous les pairs donnent la priorité à l’obtention de commandes dans des environnements industriels, Zihbian a choisi une voie plus audacieuse. En mars de cette année, Zihbian a annoncé sa collaboration avec 58 Tongcheng : 58 à la maison (58到家) planifie aléatoirement des binômes composés d’une « tante » et de robots, afin de réaliser ensemble des services de conciergerie/ménage, avec un pilote déjà lancé à Shenzhen. La famille — un contexte au niveau de standardisation le plus faible et à l’environnement le plus ouvert — est en train de devenir, dans l’esprit de Zihbian, le champ de bataille clé « menant aux robots généralistes ».**01 Une compétition qui ramène les robots dans le monde réel**Le règlement de cette EAIDC 2026 est assez plein de subtilités. Toutes les équipes participantes utilisent la même plateforme matérielle. En l’espace de trois jours, elles doivent passer d’une première prise en main du modèle de base d’intelligence incarnée et du débogage du robot réel, et achever l’ensemble du processus, de la collecte des données au déploiement sur le robot réel. Dans des conditions normales, des laboratoires de recherche professionnels mettent au moins 6 mois pour réaliser une configuration similaire.D’après l’observation de Wang Hao, dès l’après-midi du premier jour de compétition, une différenciation marquée est apparue. « L’après-midi d’ouverture, certaines équipes avaient déjà des résultats le soir, tandis que d’autres continuaient à régler/déboguer l’environnement. Il y a une énorme différence. » Plus tard, il a constaté que les équipes qui testaient et évaluaient fréquemment, et qui observaient attentivement les données et le matériel, étaient nettement plus performantes que celles qui ne passaient pas à l’action. « L’intelligence incarnée est un apprentissage par interaction : la machine trouve des problèmes pendant les tests, et l’humain, à travers son observation, permet de les faire ressortir. Plus vous avez la possibilité de trouver des solutions à la complexité réelle du monde physique. »Un participant a ensuite raconté que, lorsqu’ils ont d’abord été confrontés à la tâche « enfiler l’anneau sur la colonne », leur taux de réussite n’était que de 20 % à 30 %. Après des itérations continues, il a progressivement augmenté pour atteindre 60 % à 70 %.La compétition prévoit aussi un Classement A et un Classement B. Le Classement A a un environnement contrôlable, permettant aux équipes de valider rapidement les capacités du modèle ; le Classement B est un « boîte noire » totale, mettant à l’épreuve la capacité de généralisation du modèle lorsque changent l’éclairage, l’arrière-plan, l’objet d’opération et la position d’opération. Wang Hao a déclaré que c’était leur intention initiale de faire une compétition : « Nous voulons, grâce à cette compétition, permettre véritablement à l’ensemble du projet open source de réduire les barrières d’utilisation pour les développeurs, et établir une interface relativement commune et standard ».Dans l’industrie de l’intelligence incarnée, qui dépend de manière prolongée aux évaluations et tests par simulation, l’environnement de simulation peut certes accélérer les itérations, mais il est difficile de reproduire la complexité du monde réel : l’écart sim2real (méthode de transfert technologique de l’environnement simulé vers le monde réel) existe toujours. Wang Hao a reconnu : « En dépendant longtemps de l’évaluation par simulation, il est inévitable que l’on dissimule les véritables limites des capacités du modèle ». Et cette EAIDC, comme une « arène de démonstration sur robots réels », tente de ramener l’évaluation, l’entraînement et la collecte des données dans le même monde réel.**02 Une « nouvelle histoire » de bout en bout ?**Zihbian a choisi dès le départ une voie « modèle de bout en bout unifiant le grand cerveau et le petit cerveau ». Sur le plan de l’architecture technique, l’équipe tente d’intégrer le modèle de monde et le modèle VLA (vision-langage-action) dans un cadre conjoint.Wang Hao a expliqué la logique sous-jacente de cette voie. « La base d’entraînement du grand modèle de langage doit toujours être utilisée. Simplement, nous voulons amener le langage et les actions dans un même espace, au lieu, comme auparavant, de faire en sorte que toute la vision serve le langage. Les informations décrites par le langage sont très macroscopiques, tandis que les interactions dans le monde physique se produisent à l’échelle du centimètre et à l’échelle de la seconde ; entre les deux, il existe un fossé d’information énorme. « Si nous pouvons adopter une manière native multimodale, les actions peuvent être exprimées très clairement à la fois dans le macroscopique et le microscopique : cela peut transformer la vision, d’une simple observation statique à une vision qui comprend le mouvement ».Cela contraste avec les conceptions simplifiées de nombreux modèles VLA actuels. Des observateurs de l’industrie ont indiqué que beaucoup de modèles incarnés restent orientés vers la simplification, et que la plupart des modèles VLA reposent encore sur une entrée d’image unique (single-frame).Wang Hao estime que le plus grand défi des modèles de bout en bout réside dans la complexité d’entraînement et les exigences en matière d’échelle. « S’il n’y a pas les deux conditions — la complexité et l’échelle — choisir le bout en bout n’assure pas nécessairement de meilleures performances que les modèles spécialisés par verticalité ou les modèles en couches. Le bout en bout implique nécessairement l’existence d’effets d’échelle : le volume de données, le nombre de paramètres du modèle doivent augmenter. » De plus, l’évaluation de l’intelligence incarnée est plus délicate que celle des grands modèles de langage. « Un grand modèle de langage peut observer la courbe de loss ; pour l’intelligence incarnée, ce n’est généralement pas le cas. La loss ne reflète pas votre performance dans le monde réel, parce que le monde réel est un système en boucle fermée. »Une autre stratégie centrale de Zihbian consiste à maintenir la collecte de données sur robots réels dans le monde réel. Wang Hao a déclaré : « Pour l’apprentissage interactif et le renforcement, les données les plus importantes viennent du robot réel. Cette collecte de données ne s’arrêtera pas, et continuera. » Mais il a aussi révélé qu’en 2026, il y aura un grand changement : « de plus en plus de dépendance à la collecte de données via le port d’un dispositif par l’humain, ou à une manière Ego-Centric ».Construire une boucle de données fermée est aussi un point clé de la philosophie de Zihbian. Wang Hao a dit : « Faire fonctionner la boucle fermée le plus tôt possible, avec une approche de collaboration homme-machine. D’abord, utiliser des données de haute qualité et un entraînement à grande échelle pour construire un modèle de base. Même si cela ne résout pas toutes les tâches, il faut le mettre en pratique dans un environnement réel pour commencer. S’il y a des choses qui ne vont pas, les humains le prennent en charge, l’aident à se rétablir depuis ses erreurs. Ces données-là deviennent alors une source extrêmement précieuse. » Il décrit un système dans lequel l’évaluation, l’entraînement et la collecte des données sont réalisés dans le même processus.**03 Pourquoi la famille ?**En fait, dans l’industrie, on estime généralement que l’application mûre des scénarios domestiques nécessite d’attendre 5 à 10 ans. La plupart des fabricants privilégient commercialement les scénarios industriels : environnement contrôlable, tâches plus simples, ROI calculable. Début 2026, une vague d’entreprises de robots évaluées à plusieurs dizaines de milliards s’est formée, mais dans la direction des services à domicile, il n’existe pour l’instant aucun acteur véritablement mature.Wang Hao a proposé une approche différente : « La famille représente l’environnement le plus ouvert et le plus large éventail de tâches. En résolvant les tâches domestiques, cela signifie que le modèle peut parvenir à une généralisation complète. Ce n’est qu’en faisant face dès le départ aux scénarios les plus complexes que l’on peut améliorer le niveau d’intelligence du modèle. Peu importe quand commencer, plus tôt vous commencez, mieux c’est : c’est l’essentiel. »Cependant, entrer dans le monde domestique comporte plusieurs difficultés clés. Premièrement, la capacité de généralisation zéro-shot : le modèle doit réussir à explorer des chemins à partir du raisonnement, plutôt que de s’appuyer sur un entraînement préalable. « Au début, il n’y a pas beaucoup d’opportunités pour entraîner le modèle ; à ce moment-là, il faut activer la capacité de raisonnement du modèle, pour qu’il explore dans le scénario domestique des exemples qui réussissent grâce au raisonnement. » Deuxièmement, la finesse de l’exécution sur des actions à longue portée. « Maintenant que le modèle de base entre dans la maison, il y a une tendance à accomplir certaines tâches ou des intentions d’action sur beaucoup de tâches. Par exemple, il peut avoir la tendance à tendre le bras et à attraper n’importe quel objet ; mais la précision n’est pas suffisante. Résultat : lors de tâches complexes à longue portée, l’erreur s’accumule et finit par échouer. »Wang Hao explique que la résolution du problème de la précision sur la longue portée repose sur deux éléments clés. D’abord, activer la capacité de raisonnement du modèle : « Laisser le langage combiner la vision pour raisonner ; que le langage, la vision et l’action forment une chaîne de pensée au même niveau, afin que le robot planifie et réfléchisse lui-même. » Ensuite, faire de l’apprentissage par renforcement dans un contexte de grand volume de robots réels : « Maintenir, sous les standards du modèle de base, un espace de précision plus élevé. »Wang Hao estime que « des tâches ordinaires comme le nettoyage et le rangement peuvent atteindre une autonomie complète en 1 à 2 ans. Mais pour parvenir à fermer la boucle sur toutes les tâches domestiques, cela pourrait prendre un peu plus de temps ».Cela fait écho aux propos du PDG de Zihbian, Wang Qian. Dans une interview, Wang Qian avait mentionné qu’on pourrait voir d’ici cette année des robots se commercialiser de manière à ROI positif. L’avancement des scénarios domestiques est évidemment plus lent, mais aussi plus durable.En revenant aux sujets controversés que l’ensemble de la filière de l’intelligence incarnée se soucie le plus à l’heure actuelle : qu’est-ce qui pèse le plus, le choix de la voie technologique ou la commercialisation ?« Dans l’intelligence incarnée, les réussites obtenues au prix de la technologie pour la commercialisation n’atteindront pas un plafond élevé. Le vrai plafond élevé, c’est la synergie entre la commercialisation et la technologie : la technologie fait progressivement avancer le développement de la commercialisation. » Wang Hao pense que la ligne principale de Zihbian consiste à faire itérer le modèle de base sans s’arrêter. « Mais il y a un point : ne pas construire trop de systèmes de modèles dans des scénarios verticaux, et faire trop de “compenser par de l’ingénierie” pour réussir une mise sur le marché. Par exemple, si vous découvrez que le robot a une zone aveugle en vision, vous construisez un petit modèle pour détecter. À court terme, cela peut aider à accélérer la mise sur le marché, mais à long terme, cela nuit à l’amélioration du modèle de base. »Cette constance correspond à la logique de choix de scénarios chez Zihbian : la première raison de choisir un scénario est de voir s’il peut “réinjecter” de la capacité dans le modèle de base. « On ne veut pas dire qu’on réalise d’abord une technologie totalement généralisée, puis seulement après on réfléchit au scénario. Au contraire, c’est le scénario qui vous fait itérer : l’itération rend le modèle de base plus fort, et ce modèle de base plus fort peut à son tour réinjecter au niveau de la commercialisation. C’est ainsi qu’on forme une boucle fermée complète. »Il révèle que l’investissement pour bâtir des modèles de base reste très élevé. Depuis le premier jour de la création de l’entreprise, on y investit massivement en données, en puissance de calcul et en infrastructures. « Une fois qu’on a mis en place des effets d’échelle, lorsque vous investissez 10 fois plus de ressources pour prendre l’avantage, l’effet de concentration des ressources deviendra de plus en plus évident. Vous allez dépasser les autres en vitesse grâce à un avantage en ordre de grandeur. Plus vous commencez tôt, plus vous avez d’avantage ; plus vous commencez tard, plus c’est difficile à réussir. »     (Rédaction : 刘静 HZ010)  		          【Avertissement】 Le présent article ne reflète que les opinions de l’auteur lui-même, et n’a aucun lien avec Hexun. Le site Hexun maintient une position neutre sur les déclarations et les jugements exprimés dans l’article, et ne fournit aucune garantie explicite ou implicite quant à l’exactitude, la fiabilité ou l’exhaustivité du contenu. Les lecteurs sont priés de n’en tirer qu’un titre indicatif et d’assumer l’entière responsabilité de tout risque. Email : news_center@staff.hexun.com            Signaler

Dialogue variable indépendante CTO Wang Hao : Pourquoi le « Saint Graal » de l'intelligence incarnée est-il la famille ?

Sujets populaires

GateSquareAprilPostingChallenge

MarchNonfarmPayrollsIncoming

IsraelStrikesIranBTCPlunges

CryptoMarketSeesVolatility

OilPricesRise

Hot Gate Fun

狐狸币

狐狸币

iranht

"Iran has teeth".

FUN

FUN COIN

Token

词元

TMP

特没谱

Épingler