Les capacités des grands modèles d’IA ont déjà dépassé celles des humains dans certains domaines, comme la programmation et les mathématiques. Selon des sources, l’interne d’Anthropic a presque atteint 100 % de programmation par IA, et Gemini Deep Think de Google a répondu à 5 des 6 questions lors de l’IMO 2025, atteignant un niveau de médaille d’or.

Mais en matière de raisonnement visuel, même Gemini 3 Pro, qui est en avance, ne dépasse que le niveau d’un enfant de 3 ans sur le benchmark BabyVision, qui évalue la capacité de raisonnement visuel de base.

Pourquoi les grands modèles sont-ils très performants en programmation et mathématiques, mais faibles en raisonnement visuel ? C’est parce que leur « mode de pensée » présente des limites : le modèle de langage visuel (VLM) doit d’abord convertir l’entrée visuelle en langage, puis effectuer un raisonnement basé sur du texte, mais de nombreuses tâches visuelles ne peuvent tout simplement pas être décrites précisément avec des mots, ce qui explique leur faiblesse en raisonnement visuel.

Andrew Dai, qui travaille chez Google DeepMind depuis 14 ans, s’est associé à Yinfei Yang, expert en IA chez Apple, pour créer une société appelée Elorian AI. Leur objectif est de faire passer la capacité de raisonnement visuel du modèle de « niveau enfant » à « niveau adulte », et de doter le modèle d’une véritable capacité de réflexion native dans « l’espace visuel », afin de faire avancer l’AGI dans le monde physique.

Elorian AI a obtenu un financement initial de 55 millions de dollars, avec la participation conjointe de Striker Venture Partners, Menlo Ventures et Altimeter, ainsi que 49 Palms et des scientifiques de premier plan comme Jeff Dean.

Les pionniers des modèles multimodaux, visant à doter les modèles visuels de capacités de raisonnement

Andrew Dai, d’origine chinoise, titulaire d’un bachelor en informatique de Cambridge et d’un doctorat en apprentissage automatique d’Édimbourg, a effectué un stage chez Google pendant ses études, puis a rejoint Google en 2012, où il est resté 14 ans avant de se lancer dans l’entrepreneuriat.

Source : LinkedIn d’Andrew Dai

Peu après avoir rejoint Google, il a coécrit avec Quoc V. Le le premier article sur la pré-formation de modèles linguistiques et leur ajustement supervisé, « Semi-supervised Sequence Learning », qui a jeté les bases de GPT. Une autre publication fondamentale est « Glam : Efficient scaling of language models with mixture-of-experts », qui a ouvert la voie à l’architecture MoE (mixture of experts) aujourd’hui dominante.

Source : Google

Chez Google, il a également participé en profondeur à la formation de presque tous les grands modèles, de Plam à Gemini 1.5 et Gemini 2.5. Sur ordre de Jeff Dean, il a commencé en 2023 à diriger le secteur des données pour Gemini (y compris les données synthétiques), une équipe qui a ensuite atteint plusieurs centaines de membres.

Source : LinkedIn de Yinfei Yang

Son cofondateur, Yinfei Yang, a travaillé chez Google Research pendant quatre ans, spécialisé dans l’apprentissage multimodal, avant de rejoindre Apple pour diriger le développement de modèles multimodaux.

Source : arXiv

Son étude emblématique, « Scaling up visual and vision-language representation learning with noisy text supervision », a fait progresser l’apprentissage multimodal.

Parmi les cofondateurs d’Elorian AI figure aussi Seth Neel, ancien assistant professeur à Harvard, expert en données et IA.

Pourquoi évoquer les publications pionnières de ces cofondateurs ? Parce qu’ils ne cherchent pas simplement à optimiser l’ingénierie, mais à révolutionner l’architecture fondamentale pour faire passer l’IA d’une compréhension intelligente basée sur le texte à une compréhension basée sur la vision.

Aujourd’hui, malgré d’excellentes performances sur les tâches textuelles, même les modèles multimodaux les plus avancés échouent dans la tâche de « grounding visuel » (Visual grounding), qui consiste à aligner précisément une partie d’une image avec une description.

Par exemple, comment insérer parfaitement une pièce dans un mécanisme pour qu’il fonctionne plus précisément et efficacement ? Ces tâches spatiales et physiques sont simples pour un élève de primaire, mais très difficiles pour les modèles multimodaux existants.

Il faut revenir à la biologie : dans le cerveau humain, la vision constitue la matrice sous-jacente à de nombreux processus cognitifs. La capacité humaine à raisonner spatialement et visuellement est bien plus ancienne que le raisonnement linguistique.

Par exemple, pour expliquer un labyrinthe, une description verbale peut embrouiller, alors qu’un croquis permet de comprendre instantanément.

De même, un oiseau, sans langage, peut reconnaître et raisonner sur des caractéristiques géographiques pour migrer à distance à l’échelle mondiale. Cela montre qu’il faut vraiment faire évoluer la capacité de raisonnement des machines, et que la vision est probablement la voie d’évolution la plus prometteuse.

Imaginez si, dès la conception du modèle, on intégrait cette instinct biologique de la vision dans l’ADN de l’IA, en construisant un modèle multimodal natif capable de « comprendre » et de « traiter » simultanément du texte, des images, des vidéos et de l’audio. Andrew Dai et son équipe veulent créer un « sensorimoteur » inné, qui non seulement « voit » le monde, mais le « comprend » aussi.

Selon eux, une compréhension profonde du « monde physique » est la clé pour faire passer l’intelligence machine à un niveau supérieur, et atteindre enfin une « IA visuelle générale (Visual AGI) ».

Les modèles VLM à raisonnement en second plan ne sont pas la voie correcte pour le raisonnement visuel

Il n’a pas manqué d’équipes qui ont tenté cette voie. Andrew Dai, dans l’équipe Gemini, faisait partie des leaders mondiaux dans le domaine multimodal. Mais les modèles multimodaux traditionnels restent principalement des VLM (modèles de langage visuel), qui fonctionnent selon une logique en deux étapes : d’abord convertir l’entrée visuelle en langage, puis effectuer un raisonnement basé sur du texte (parfois en appelant des outils externes).

Cependant, ce raisonnement en second plan présente des limites : il peut générer des hallucinations du modèle, et beaucoup de tâches visuelles ne peuvent tout simplement pas être décrites précisément avec des mots.

De plus, des modèles comme NanoBanana, excellents en génération visuelle, ne doivent pas être confondus avec des modèles de raisonnement. Leur « pensée » avant génération repose encore sur des modèles linguistiques, pas sur un raisonnement natif.

Pour développer un modèle capable de percevoir la complexité spatiale, structurelle et relationnelle du monde visuel, il faut une innovation technologique radicale.

Comment faire ? Les fondateurs d’Elorian AI, forts d’années d’expérience dans le domaine multimodal, proposent : fusionner en profondeur l’entraînement multimodal avec une architecture entièrement nouvelle conçue pour le raisonnement multimodal. Ils abandonnent la vision d’images comme entrées statiques, pour entraîner le modèle à interagir directement avec les représentations visuelles (Visual representations), afin d’analyser de façon autonome leur structure, leurs relations et leurs contraintes physiques.

Un autre élément clé est la donnée, qui détermine la performance et la réussite de ces modèles.

Andrew Dai insiste sur l’importance de la qualité des données, de leur mélange, de leur provenance et de leur diversité. Ils innovent aussi au niveau des données, en reconstruisant la chaîne de raisonnement dans l’espace visuel, en utilisant massivement et en profondeur des données synthétiques.

Ces efforts combinés devraient donner naissance à un nouveau système d’IA capable de passer de la simple perception visuelle à un raisonnement avancé.

Ce système pourrait constituer un modèle de raisonnement visuel de base : un modèle hautement généraliste, mais doté d’une capacité spécifique exceptionnelle en raisonnement visuel.

En tant que modèle de base universel, ses applications seraient vastes.

Dans la robotique, il pourrait servir de noyau nerveux pour des systèmes autonomes capables d’opérer dans des environnements inconnus.

Par exemple, déployer un robot pour gérer une panne critique dans un environnement dangereux, en lui permettant de prendre des décisions rapides et précises. Sans un modèle de raisonnement profond, on n’oserait pas lui confier des manipulations complexes. Mais avec une capacité de raisonnement avancée, il pourrait penser : « Avant d’actionner ce panneau, je devrais peut-être d’abord tirer cette manette pour activer la sécurité. »

Dans la gestion des catastrophes, un modèle doté de raisonnement visuel pourrait analyser des images satellites pour surveiller et prévenir les incendies de forêt ; en ingénierie, il pourrait comprendre précisément des plans complexes ou des schémas électriques, car la compréhension des lois physiques du monde réel ne peut se limiter à quelques lignes de code.

Pourtant, les modèles et capacités d’Elorian AI restent pour l’instant au stade conceptuel. Ils prévoient de lancer en 2026 un modèle atteignant le SOTA en raisonnement visuel, pour tester concrètement leurs promesses.

Quand l’IA aura réellement la capacité de « raisonnement visuel », comment cela changera-t-il le monde physique ?

Pour que l’IA comprenne et influence le monde réel, la technologie a connu plusieurs itérations.

De la reconnaissance d’images dans l’ère de la vision par ordinateur, aux modèles génératifs d’images et multimodaux, puis aux modèles de monde, la compréhension du monde physique ne cesse de s’approfondir.

Et le modèle de raisonnement visuel pourrait aller encore plus loin, car sa capacité à raisonner visuellement permettrait à l’IA de comprendre plus profondément la physique, et d’atteindre un niveau supérieur d’intelligence machine.

Imaginez un instant : si des modèles dotés d’une compréhension profonde et d’une manipulation précise alimentaient l’industrie de l’intelligence incarnée et le secteur du matériel IA, leur champ d’application s’élargirait considérablement. Par exemple, la robotique pour une production industrielle plus fiable, ou la médecine et les soins. Les dispositifs IA, notamment portables, deviendraient des assistants personnels plus intelligents.

Mais, à la base de ces avancées, il y a toujours la donnée. Andrew Dai l’a rappelé : la qualité, la diversité, la provenance et le mélange des données déterminent la performance des modèles.

Dans le domaine de l’IA physique, les entreprises chinoises, tant au niveau des modèles que des données, sont plus proches des leaders mondiaux que leurs homologues basés sur le texte. Si elles exploitent leur avantage en données et en scénarios d’application pour accélérer leur évolution, elles ont toutes les chances de devenir des acteurs mondiaux de premier plan, voire de créer des entreprises de classe mondiale.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
Gate13thAnniversaryLive
1.23M Popularité
#
WCTCTradingChallengeShare8MUSDT
799.67K Popularité
#
BitcoinBouncesBack
215.98K Popularité
#
IsraelStrikesIranBTCPlunges
30.66K Popularité
#
EthereumMemeSeasonReturns
2M Popularité

Épingler

Explorer le monde physique avec « raisonnement visuel » pour l'AGI, ElorianAI a levé 55 millions de dollars

Sujets populaires

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

EthereumMemeSeasonReturns

Épingler