L'IA maîtrise le langage. Le monde physique est la prochaine étape

2026-03-07 14:57:25

Le prochain grand saut de l’intelligence artificielle ne viendra pas de modèles linguistiques améliorés. Il viendra de machines qui comprennent comment le monde physique fonctionne et comment le contrôler.

Vidéo recommandée

J’ai passé des années à réfléchir à cela, d’abord en tant qu’immunologiste à Oxford, étudiant comment les réseaux immunitaires apprennent par rétroaction plutôt que par instruction, puis en tant qu’investisseur dirigeant le plus grand investissement en amorçage de Khosla Ventures depuis OpenAI, dans un laboratoire de modélisation du monde appelé General Intuition.

La contrainte limitant l’IA incarnée n’est pas la puissance de calcul ou l’architecture. C’est un type spécifique de données qui existe à peine.

Libérer le génie

Plus tôt cette année, Google a lancé le Project Genie, ce qui a fait chuter tout le marché du jeu vidéo. Le marché l’a interprété comme une menace pour Unity, TakeTwo Interactive, Roblox, toute la chaîne de création de contenu—l’IA qui s’attaque aux développeurs de jeux. Mais réduire cela à une disruption dans le jeu, c’est comme regarder la première démo de l’iPhone et conclure qu’Apple s’attaque à Nokia. La véritable stratégie est de posséder chaque charge de travail spatiale sur la planète.

Ce qui a révélé la main de Google, ce n’est pas ce que Genie fait bien, mais ce sur quoi il fait des compromis : des environnements qui ne durent que quelques minutes, une latence perceptible, une physique qui se comporte étrangement. Pour l’instant, ces limitations sont acceptables lorsque le véritable objectif n’est pas le divertissement. Google nous a explicitement dit que Genie 3 est « une étape clé sur le chemin vers l’AGI », une infrastructure pour entraîner SIMA, leur agent généraliste qui a besoin d’environnements divers et infinis pour apprendre la navigation, la manipulation d’objets et la physique du monde réel. Générer des objets en cours de session et modifier les conditions environnementales à la volée n’est pas une fonctionnalité de jeu. C’est un générateur de curriculum pour l’apprentissage par renforcement.

Ce que Google a construit, c’est une usine d’environnements, un système qui réduit des mois de codage manuel traditionnel pour créer des simulations d’entraînement en quelques secondes de simple prompt textuel.

Aller au-delà des écrans en verre

Pour comprendre pourquoi cette distinction est importante, il faut prendre du recul. Malgré tout le bouleversement de la révolution numérique, peu de choses ont changé dans notre interaction physique avec la réalité. Le saut du premier ordinateur de bureau au smartphone, puis à l’architecture transformer, a été énorme en termes de flux d’informations. Mais nous tapotons encore principalement sur des écrans en verre.

Considérez l’écureuil dehors votre fenêtre, sautant de branche en branche, ajustant en vol pour le vent et la flexion. Il possède un modèle interne de la physique extraordinairement sophistiqué : gravité, impulsion, friction, et peut planifier des séquences d’action complexes. Pourtant, il n’a pas de langage. Il sait simplement, de la même manière que la connaissance existait bien avant que la description ne puisse jamais faire.

L’IA a presque entièrement ignoré ce type de connaissance. Aujourd’hui, les grands modèles linguistiques peuvent écrire des sonnets et déboguer du code. Mais demandez à l’un d’eux de plier une serviette, et vous découvrirez l’écart entre connaître le monde et savoir comment agir dans celui-ci. La langue n’est qu’une compression de l’expérience humaine. Le texte ne capture qu’une fine tranche de ce que nous savons.

Les modèles du monde, réseaux neuronaux entraînés à comprendre et prédire la réalité physique, promettent de changer cette équation. Yann LeCun comprend cela, et a proclamé « Les LLMs sont essentiellement une impasse en ce qui concerne la superintelligence » avant de quitter Meta pour lancer sa propre startup de modèles du monde. Fei-Fei Li’s World Labs a récemment lancé Marble, générant des environnements 3D. Tous deux comprennent que l’intelligence spatiale est la prochaine frontière de l’IA.

Mais aucun d’eux n’a résolu la contrainte limitante : ils n’ont pas les données pour construire des agents.

Entraîner un agent nécessite des données conditionnées par l’action. Pas seulement à quoi ressemblait le monde, mais ce que quelqu’un a fait et ce qui s’est passé ensuite : observation, décision, action, conséquence. La boucle complète. La transition vers des agents nécessite des millions d’heures de prise de décision humaine capturées à la source, alignées sur les changements d’état résultants, auto-sélectionnées pour les cas extrêmes.

Les mains comme dernier goulot d’étranglement

Les jeux vidéo pourraient être la réponse inattendue. Ils offrent des enregistrements complets de l’action humaine, chaque entrée enregistrée et étiquetée, dans des environnements qui capturent la physique et la prise de décision sous incertitude. Des millions d’heures de jugement humain, déjà numérisées.

La valeur la plus profonde n’est pas la physique. C’est l’intuition humaine. Un moteur physique modélise comment un drone se déplace ; il ne peut pas modéliser comment un opérateur expérimenté réagit lorsqu’il est surpris. En chirurgie, c’est la sensation de la réaction des tissus au scalpel. Entraîner sur la prise de décision humaine permet de capturer une expertise qui ne peut être décrite avec des mots, seulement montrée, ressentie.

Réussir cela, c’est faire écho à ce que le logiciel a fait pour l’information.

Lorsqu’une machine peut apprendre une tâche de manipulation à partir d’heures de démonstration plutôt que de mois de programmation, l’économie de fabrication bascule. La production en petites séries devient viable. Les biens personnalisés coûtent ce que coûtent aujourd’hui les biens de masse. La connaissance d’un maître électricien peut être déployée dans mille villes simultanément. Le jugement du meilleur chirurgien peut s’étendre aux hôpitaux ruraux qui n’y ont pas accès aujourd’hui. La contrainte n’a jamais été les scalpels. C’étaient les mains.

L’agriculture, la logistique, les soins aux personnes âgées. Tous les domaines où la compétence physique est rare deviennent des candidats à la transformation. Le fil conducteur : l’expertise enfermée dans des corps individuels devient transférable.

La révolution numérique a rendu l’information gratuite. La révolution du modèle du monde rendra la capacité gratuite. Je ne vois pas de pari plus important à faire.

Les opinions exprimées dans les articles de Fortune.com sont uniquement celles de leurs auteurs et ne reflètent pas nécessairement celles de Fortune.

Rejoignez-nous au Fortune Workplace Innovation Summit du 19 au 20 mai 2026 à Atlanta. La prochaine ère de l’innovation au travail est là—et l’ancien manuel est en train d’être réécrit. Lors de cet événement exclusif et dynamique, les leaders les plus innovants du monde se réuniront pour explorer comment l’IA, l’humanité et la stratégie convergent pour redéfinir, encore, l’avenir du travail. Inscrivez-vous dès maintenant.

AGI-4,41%

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

1 J'aime