Le modèle mondial connaîtra une avancée rapide cette année ! La conduite autonome pourrait atteindre un tournant commercial

LightningPacketLoss · 2026-03-30T17:00:10+00:00

Lors du Forum Zhongguancun 2026, Zhu Jun a souligné qu'avec le soutien d'une architecture unifiée et d'un système de données, le modèle mondial connaîtra une percée rapide. Il a insisté sur le fait que la définition actuelle du modèle mondial est floue et qu'il est nécessaire de clarifier la différence entre ses applications numériques et physiques, en particulier dans le domaine de la robotique et des pré-entraînements. Les futures avancées technologiques se concentreront sur la capacité d'interaction en temps réel et d'apprentissage en ligne, dans l'espoir de soutenir davantage d'applications intelligentes.

LightningPacketLoss

2026-03-30 17:00:10

Création du résumé en cours

« Grâce à une impulsion conjointe vers une architecture unifiée, une base de données et un soutien en capacités de calcul, le world model fera en 2026 une percée rapide ! »

Lors du forum spécialisé « AI future forum : saut · investissement · symbiose » tenu dans le cadre de la conférence annuelle 2026 de Zhongguancun, qui s’est tenue le 29 mars, Zhu Jun, fondateur de Shengshu Technology et vice-directeur de l’Institut de recherche en intelligence artificielle de l’Université Tsinghua, a émis la perspective ci-dessus.

Comment construire

Parallèlement, la définition du world model est en train d’être élargie et rendue plus floue. « Il est nécessaire de clarifier davantage la définition de “world model”. » Zhu Jun a indiqué que, dans les recherches actuelles, beaucoup ne sont pas complètes. Par exemple, certaines méthodes de génération vidéo interactive restent essentiellement limitées à la reconstitution de l’espace numérique ; elles sont principalement utilisées pour une interaction unilatérale entre l’humain et le système, et ne disposent pas de la capacité d’apprendre et d’exécuter des actions dans un environnement réel.

« Le “world model” est divisé par Wu Wei, fondateur de l’espace des variétés, en deux catégories : l’une est un world model dans le monde numérique, dont l’objectif principal est de construire des interfaces d’interaction plus temps réel ; l’autre est pour le monde physique, devenant un “cerveau” de robot prédictif. » « Les capacités qui soutiennent ces deux types de world models ne sont pas identiques : dans le monde numérique, il faut davantage satisfaire les préférences des créateurs, tandis que dans le monde physique, il faut reproduire le véritable monde physique et les opérations robotiques. »

Prenons l’exemple de la conduite autonome et de l’intelligence embarquée. Pour la conduite autonome, la collecte de données sur véhicule permet d’établir une boucle de données, tandis que les robots font face à un problème de démarrage à froid des données. Wu Wei a analysé que, dans de nombreuses entreprises, on a tendance à déployer des robots d’une manière similaire à la conduite autonome : collecter des données par téléopération dans l’environnement réel. Même si la qualité des données est très élevée, il existe un problème de vitesse à laquelle les performances du modèle augmentent avec la taille des paramètres ou l’investissement en capacités de calcul. « Pour l’entraînement du world model, utiliser des données de perspective à la première personne pour un pré-entraînement peut résoudre ce problème. »

En partant de l’expérience en entreprise, Xu Huazhe, fondateur de Poqiao Robot et professeur adjoint au sein de l’Institut d’informations croisées de l’Université Tsinghua, a souligné que, lors de la collecte de données dans 100 foyers, il est impossible de généraliser à 10 000 foyers. Le pré-entraînement des robots doit se faire avec des vidéos à la première personne, afin d’apporter une véritable généralisation au sens propre. Plus précisément, il faut d’abord définir ce qu’on fait et ce qu’on ne fait pas, puis itérer en sens inverse le système, y compris le matériel, le contrôle des mouvements, etc. Par exemple, les mains du robot Poqiao ne peuvent pas réaliser 21 degrés de liberté, mais elles peuvent généraliser dix tâches, puis attendre une mise à niveau.

Zhu Jun a proposé un « cadre unifié de world model » : l’unification théorique de la génération multi-modale et des tâches d’action. Cette unification n’est pas un assemblage d’ingénierie, mais une unification au niveau structurel. D’un point de vue plus macro, que ce soit dans le monde numérique ou dans le monde physique, le final reposera sur des agents intelligents de différentes formes. Dans le monde physique, les agents intelligents ont une « forme corporelle », et le world model en constitue le noyau « centre nerveux intelligent ».

Construire un world model général revient aux principes fondamentaux des grands modèles : une architecture extensible, de grandes ensembles de données et des capacités de calcul suffisantes. Zhu Jun estime que le world model devrait adopter une architecture unifiée ; or, les méthodes courantes aujourd’hui sont souvent modulaires et fragmentées : certaines se concentrent sur l’ajustement des trajectoires d’action, d’autres sur la prédiction, et d’autres encore apprennent directement des stratégies de contrôle.

Percées technologiques

En parlant des possibilités de la technologie de world model, Zhang Mingxing, professeur adjoint à l’Université Tsinghua, a déclaré que de nombreuses voies de world model s’appuient sur les capacités des modèles de langage, puis migrent vers davantage de modalités. Cependant, le langage suffit-il à modéliser le monde physique ? Ou faut-il un autre langage à espace discret/plat (light space) ? À l’heure actuelle, il existe des divergences théoriques. En outre, passer par un entraînement sur données ou par un espace physique : pour atteindre une « télémesure physique » ou une « perspective à la première personne » ? Les modalités et la mise en œuvre de l’espace physique restent encore à faire des percées.

Plus précisément, en 2026, le world model doit se concentrer sur deux percées technologiques majeures. Wu Wei a déclaré que, premièrement, il s’agit de la capacité d’interaction et de manipulation en temps réel ; deuxièmement, du post-entraînement des world models. « En particulier l’apprentissage par renforcement et l’apprentissage en ligne », a expliqué Xu Huazhe de façon détaillée : étendre l’apprentissage par renforcement à une, mille, dix mille robots, tout en atteignant une vitesse comparable à celle des humains sans perdre le taux de réussite ; et, en plus, permettre à l’intelligence embarquée, après le déploiement, d’apprendre rapidement en ligne en fonction de tâches bizarres.

En s’appuyant sur l’accumulation à long terme sur les modèles vidéo, Zhu Jun propose une feuille de route technologique plus claire : au niveau du socle, Diffusion Transformer (U-ViT) comme architecture de base unifiée ; dans l’espace des pixels pour le décodage, correspondant au modèle de génération vidéo Vidu, au service de la création de contenus numériques ; dans l’espace des actions pour le décodage, au service des interactions d’intelligence embarquée dans le monde physique. Cela signifie qu’un même modèle de base peut soutenir à la fois la capacité de génération du monde numérique et la capacité d’action dans le monde physique.

D’après les informations, Shengshu Technology a validé sa capacité dans des scénarios multi-tâches. Par exemple : tâches de manipulation de验证码 (codes de vérification) — simuler les opérations humaines sur la souris via un bras mécanique, afin de réaliser la reconnaissance d’écran et le clic précis ; tâches de décision pour les jeux — impliquant planification à long terme et inférence multi-étapes, nécessitant une coordination entre perception, prédiction et décision ; manipulation d’objets flexibles — face à des objets complexes et irréguliers, réaliser une saisie stable.

Une architecture unifiée apporte de nouvelles voies de développement. À travers des observations expérimentales, Zhu Jun a déclaré qu’on peut constater deux phénomènes clés : d’une part, par rapport aux voies traditionnelles Vision-Language-Action (VLA, vision-langage-action), l’efficacité d’utilisation des données s’améliore d’un ordre de grandeur ; d’autre part, les capacités de généralisation multi-tâches se renforcent : sous un modèle unifié, on peut réaliser une généralisation efficace sur plus de 50 tâches, et les performances ne diminuent pas mais augmentent. En comparaison, les modèles VLA traditionnels (comme PI0.5) voient leurs performances chuter nettement lorsque le nombre de tâches augmente.

Au niveau du déploiement, les deux grandes voies des secteurs de la conduite autonome et des scénarios industriels verticaux entreront en 2026 dans un point d’inflexion vers la commercialisation et la capitalisation. Le cofondateur et associé de Yaotu Capital, Bai Zongyi, l’a dit franchement : il est optimiste quant aux nouvelles opportunités à l’ère de l’intelligence embarquée — la piste de la logistique du dernier kilomètre. Ivo Muth, vice-président directeur de la R&D d’Audi China, estime que, concernant l’intelligence spatiale et le world model, le changement le plus central à l’avenir, au-delà de l’amélioration de la sécurité de conduite, se reflétera aussi dans la perception de contexte et le confort de transport.

(Édition : Wen Jing)

Mots-clés :

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.