La fête de financement du modèle mondial bat son plein : les capitaux misent sur la voie de l'IA physique d'un trillion d'.

2026-04-01 00:45:31

JOURNALISTE DU Securities Times, Chen Yukun

La vague récente de « homards » (OpenClaw) montre l’aspect infaillible de l’intelligence artificielle (IA) : elle peut saisir des données, écrire du code, générer de grands contenus et même prendre le contrôle d’un ordinateur. Pourtant, dès qu’elle sort de l’écran, le robot face au monde réel ressemble à un enfant inexpérimenté : il ne peut accomplir que des actions fixes, procédurales. Le « paradoxe de Moravec » se dresse ainsi, sur la route de l’humanité vers l’intelligence artificielle générale (AGI).

Le modèle du monde est la clé pour résoudre cette impasse. Il permet aux robots de comprendre réellement les lois du monde physique, de disposer de capacités de réflexion et de raisonnement, et constitue une voie clé pour atteindre l’AGI. Cette année, le lauréat du prix Turing Yang LeCun a fondé une société de modèle du monde ; la société de modèle du monde de « la mère de l’IA », Li Fei-Fei, a obtenu un financement considérable. En Chine, plus de 20 événements de financement liés aux modèles du monde ont vu le jour. Dans le secteur, on qualifie souvent les modèles du monde comme une importante fenêtre de tir pour les 10 prochaines années de l’IA.

Plusieurs entrepreneurs du domaine de l’IA ont déclaré au journaliste du Securities Times que les modèles du monde permettent à l’IA de réaliser une compréhension et une interaction avec le monde physique de manière réelle ; ils constituent un passage obligé pour atteindre l’AGI. À l’heure actuelle, les modèles du monde en sont encore à un stade précoce. Qui saura, le premier, enclencher la roue des données d’interaction physique, pourra capter la première opportunité de développement.

L’IA doit prendre racine dans le monde réel

OpenAI a récemment annoncé la fermeture de l’application de génération vidéo Sora et l’ajustement de sa direction stratégique : à partir de maintenant, l’équipe Sora se concentrera sur la recherche de modèles du monde.

Renoncer à la génération d’un monde réel et, à la place, faire comprendre le réel à l’IA : la décision d’OpenAI reflète le prochain haut lieu stratégique de l’industrie, à savoir les modèles du monde. Selon les explications de plusieurs universités comme l’université Fudan, un modèle du monde comprend la nature, les lois de fonctionnement et les caractéristiques spatiales des choses dans le monde physique en apprenant et en prédisant à partir de données sensorielles des caractéristiques dynamiques telles que le mouvement, la force et les relations spatiales. Grâce au modèle du monde, l’IA passe de la cognition et de la reconnaissance à la compréhension et au raisonnement : c’est la base de l’intelligence incarnée et d’une interaction objective, autonome et efficace avec l’environnement.

Zhang Cheng, directeur adjoint du doyen de la School of Management de l’université Fudan, et chef de la discipline Information Management & Business Intelligence, a déclaré au journaliste du Securities Times que l’essence de la « pensée » de l’IA est une prédiction probabiliste fondée sur la statistique des données, et qu’elle manque d’une véritable émotion et d’une compréhension profonde du monde. La racine du problème réside dans le fait que les modèles sont principalement construits à partir de données linguistiques. Lorsque le modèle n’apprend le monde que par le texte, ses limites cognitives sont également limitées à ce que le langage peut exprimer. À l’inverse, les modèles du monde permettent au système de décrire les lois de fonctionnement de l’environnement en utilisant des informations multimodales, y compris la vision, l’ouïe, et la dynamique spatiale.

Miao Zhen, responsable d’audit pour l’industrie automobile de l’Est et de l’Ouest au sein de KPMG Chine, a déclaré au journaliste du Securities Times que la valeur centrale des modèles du monde réside dans le fait que, via la construction d’un monde parallèle virtuel conforme aux règles physiques, on comprend l’espace de l’environnement, on effectue des inférences prédictives sur de longues séquences afin de produire des décisions. Cela permet de réaliser l’exploration de scénarios, la prédiction causale et la couverture des scénarios à longue traîne, compensant ainsi la faiblesse des modèles purement pilotés par les données : leur généralisation insuffisante face aux scénarios extrêmement à longue traîne.

Sans modèles du monde, la limite des robots est très probablement de n’être qu’un outil d’automatisation avancé exécutant passivement du code. Le fondateur et PDG de KuoWa Technology, He Yao, a donné au journaliste du Securities Times des exemples de difficultés concrètes rencontrées lors du déploiement de robots de nettoyage dans des environnements urbains : lorsque le robot rencontre un mur standard, il peut l’éviter ; mais lorsqu’il s’approche d’une branche cassée ou d’un amas irrégulier, comme aucun objet de ce type n’est défini dans le code prédéterminé, le système le juge comme un obstacle non traversable, ce qui entraîne un arrêt sur place. « S’il existe un modèle du monde, le système peut prédire à partir de la matière et des caractéristiques physiques, planifier une trajectoire de contournement, voire pousser légèrement un objet en toute sécurité afin de maintenir un travail continu. »

La fête du financement des modèles du monde bat son plein

Avec les perspectives et le potentiel des modèles du monde, des capitaux nationaux et étrangers parient en masse. En février de cette année, l’entreprise de modèles du monde fondée par Li Fei-Fei a bouclé un financement de 1 milliard de dollars. Peu après, la start-up de modèles du monde d’Yang LeCun, AMI, a également levé plus de 1 milliard de dollars.

Côté national, d’après les données fournies par Qichacha, depuis le début de cette année, il y a eu 25 événements de financement liés aux modèles du monde, pour un montant total de plus de 2,2 milliards de yuans. Parmi eux, Ji Jiewshi a annoncé en mars la clôture d’un financement Pre-B de 1 milliard de yuans, et le même mois a indiqué que son modèle du monde incarné GigaWorld-1 s’était hissé à la première place du classement WorldArena.

« La “fièvre de financement” des modèles du monde indique que le consensus de l’industrie se forme : l’IA passe du monde numérique au monde physique, et c’est le prochain champ principal de bataille. » Un responsable lié à Tech Intell a déclaré au journaliste du Securities Times : « Au cours des 10 dernières années, les sauts des capacités de l’IA se sont surtout produits dans les domaines de la perception et du langage. Mais pour entrer réellement dans le monde physique, il faut comprendre les lois de fonctionnement du monde physique : relations spatiales, relations causales et attributs physiques. »

Le responsable susmentionné a indiqué que le pari des capitaux sur les modèles du monde revient, en substance, à parier sur une piste de niveau mille milliards : l’IA physique. À l’avenir, la feuille de route technique pourrait passer d’une approche unifiée à une spécialisation avec des découpages plus précis. Les modèles du monde seraient responsables de l’intuition physique ; les modèles vision—langage—action (VLA) seraient responsables de la compréhension sémantique ; et le contrôle à la base assurerait une exécution précise. Avec une répartition claire, le capital peut aussi trouver des points d’entrée plus ciblés.

He Yao a déclaré au journaliste du Securities Times que les financements intensifs et élevés ciblant les modèles du monde depuis 2026 montrent que capitaux et monde technologique ont la même conviction : « la prochaine étape des grands modèles de langage est le monde physique ». Les modèles du monde constituent le passage obligé vers l’IA physique et relèvent du « moment ChatGPT » de l’intelligence incarnée qui approche. Dans la future compétition de l’industrie des modèles du monde, ce seront les entreprises qui maîtrisent l’entrée des données physiques à grande échelle et parviennent à boucler une boucle commerciale qui domineront cette révolution technologique.

Permettre aux robots d’être plus « semblables aux humains »

Ces dernières années, l’AGI numérique fondée sur les grands modèles de langage a remodelé le monde numérique. Environ la moitié du PIB mondial se trouve dans le monde physique : l’espace de croissance de l’AGI physique reste considérable. La base de l’essor de l’AGI physique repose sur les modèles du monde. En s’appuyant sur les accumulations technologiques et dépôts de données précédents sur les modèles de bout en bout et les modèles spécialisés, plusieurs entreprises d’IA ont cette année décalé leurs points d’appui opérationnels vers les modèles du monde.

En février, KuoWa Technology a publié Coowa WAM 2.0, un modèle du monde universel. He Yao a déclaré aux journalistes que le lancement de ce modèle du monde vise à résoudre deux problèmes courants dans l’industrie de l’intelligence incarnée : l’« absence de capacités de généralisation » et le « plafond de développement industriel ». Dans le passé, l’industrie s’appuyait souvent sur des modèles de bout en bout pilotés par des règles ou sur des modèles de bout en bout pour un seul scénario. Le modèle WAM 2.0 donne à des entités d’IA physique multi-formes une compréhension du bon sens du monde physique complexe, ainsi que des capacités d’inférence géométrique et de prédiction causale.

Comme les grands modèles de langage dépendent de la roue de données alimentée par les textes de l’Internet, l’itération des modèles du monde dépend aussi des données d’interaction à forte valeur produites par les terminaux physiques dans le monde réel. He Yao a déclaré que l’entreprise prévoit de déployer directement des robots de type « concierge de ville » équipés du modèle WAM 2.0 dans les rues des villes pour une opération régulière, afin de créer des revenus commerciaux tout en renvoyant en continu des données physiques de haute qualité du monde réel pour améliorer l’itération du modèle.

Tech Intell est une entreprise phare sur la voie des robots de service ; ses robots de service commercialisés représentent la plus grande part mondiale des expéditions. L’entreprise a publié l’an dernier le premier modèle VLA au monde destiné à l’industrie des services : KOM2.0.

Un responsable de Tech Intell a révélé récemment au journaliste du Securities Times que l’entreprise explore activement la fusion du modèle VLA avec les modèles du monde. La faiblesse du modèle VLA réside dans le manque de compréhension causale du monde physique, ce qui rend difficile la prédiction des conséquences physiques induites par une action. Les modèles du monde constituent la clé pour atteindre l’« apprentissage à faible nombre d’exemples » et la « généralisation à zéro exemple ». Ils permettent aux robots de simuler, dans leur « esprit », les conséquences des actions, puis de choisir la stratégie optimale.

« Les modèles du monde sont aussi la base pour réaliser des interactions sûres homme-machine. Dans les scénarios de service, les robots doivent anticiper les conséquences des actions : par exemple, si la force appliquée en tendant un objet est trop forte, etc. Sans modèles du monde, les robots ne peuvent pas vraiment comprendre ces chaînes causales. » Le responsable a ajouté : « Cette année, la société testera, dans certains scénarios, l’introduction de capacités prédictives des modèles du monde afin d’améliorer l’adaptation des robots à l’environnement et leur sécurité. »

La société Shanghai Kepler Robotics Co., Ltd. (ci-après « Kepler »), qui se concentre sur des scénarios industriels et développe des « robots cols bleus », commence elle aussi à construire des modèles du monde industriels et des modèles du monde domestiques. Le directeur technique en chef de Kepler, Xi Ao, a déclaré au journaliste du Securities Times que l’entreprise prévoit d’abord de fusionner le modèle du monde industriel avec le modèle industriel VLA, puis de valider l’efficacité via des POC à petite échelle (validation de faisabilité), afin de préparer le terrain pour un déploiement à grande échelle à l’avenir.

Les barrières de données pourraient décider de la compétitivité des modèles du monde

L’année passée a été appelée l’année zéro de l’intelligence incarnée. Pendant que les robots « dansent et brodent », leurs lacunes ne manquent pas : ils ne sont pas assez intelligents. À mesure que de plus en plus d’entreprises se lancent dans les modèles du monde, des initiés n’ont pas hésité à dire que 2026 pourrait être l’année fondatrice de la base de l’AGI. Jim Fan, responsable des robots chez Nvidia, a même publié un article cette année selon lequel 2026 sera la première année qui posera véritablement les fondations, pour les robots et plus largement pour l’IA multimodale, à partir de grands modèles du monde.

Malgré des attentes prometteuses et un rythme d’évolution impressionnant, la piste des modèles du monde reste à un stade précoce : l’industrie n’a pas encore formé un paradigme technique unifié et mature. Ce qui inquiète le plus le secteur, c’est la rareté des données physiques de haute qualité, ce qui limite considérablement la diffusion des modèles du monde.

He Yao a déclaré que l’évolution des modèles du monde est étroitement liée aux trois grandes étapes de l’industrie de l’intelligence incarnée : d’abord la transition de l’intelligence spécialisée actuelle, puis la collaboration par scénarios au cours des deux prochaines années, enfin la diffusion des scénarios domestiques dans trois à cinq ans. À l’heure actuelle, l’industrie se trouve dans une période cruciale de passage de la première étape à la deuxième. Le principal défi à ce stade réside dans le manque extrême de données d’interaction physiques réelles de haute qualité et multimodales.

« Les données d’interaction ne peuvent pas dépendre entièrement des données vidéo Internet ni des données de simulation par ordinateur. Autrement dit : on ne peut pas faire pousser de véritables modèles du monde dans une serre. Seules des données de simulation dans le cloud ne peuvent pas résoudre le problème de la longue traîne infinie du monde physique. » He Yao a dit.

Un responsable de Tech Intell a déclaré au journaliste que, à court terme, le VLA combiné à l’apprentissage par renforcement peut déjà résoudre beaucoup de problèmes concrets. Mais du point de vue du développement à moyen terme de l’intelligence incarnée, à mesure que les robots entrent dans des environnements plus ouverts et plus complexes (comme les foyers et les lieux publics), les systèmes dépourvus de modèles du monde rencontreront un goulot d’étranglement en généralisation. À ce moment-là, les acteurs disposant de capacités de modèle du monde formeront un avantage générationnel. Sur le long terme, les modèles du monde seront une capacité indispensable des robots généralistes.

« Les barrières de données se constituent, et l’avantage du premier arrivé est crucial. Obtenir des données physiques de haute qualité et les utiliser de manière standardisée est le défi central. » Le responsable susmentionné a souligné : « Ce sur quoi les capitaux parient, c’est si l’entreprise peut faire tourner la boucle “données—modèle—scénario”. Si une entreprise parvient à réaliser un déploiement à grande échelle dans des scénarios réels en premier, elle peut créer un avantage du premier arrivé. »

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.