L'AGI est-elle là ? Pas même proche, suggère un nouveau benchmark d'IA

En résumé

  • ARC-AGI-3 révèle un écart massif entre les revendications d’AGI et la réalité, avec les meilleurs modèles d’IA obtenant moins de 1 % alors que les humains atteignent une performance parfaite.
  • Le benchmark teste la véritable généralisation — nécessitant que les agents explorent, planifient et apprennent de zéro dans des environnements inconnus plutôt que de rappeler des modèles entraînés.
  • Malgré le battage médiatique de l’industrie, les systèmes d’IA actuels restent loin de l’AGI, manquant de raisonnement et d’adaptabilité que même les jeunes humains manifestent naturellement.

Le PDG de Nvidia, Jensen Huang, est passé la semaine dernière sur le podcast de Lex Fridman et a déclaré, simplement : « Je pense que nous avons atteint l’AGI. » Deux jours plus tard, le test le plus rigoureux en recherche IA a publié son nouveau benchmark d’intelligence générale artificielle — et tous les modèles de pointe ont obtenu moins de 1 %.

La Fondation ARC Prize a lancé cette semaine ARC-AGI-3, et les résultats sont brutaux. Gemini 3.1 Pro de Google a mené avec 0,37 %. GPT-5.4 d’OpenAI a obtenu 0,26 %. Claude Opus 4.6 d’Anthropic a réussi 0,25 %, tandis que Grok-4.20 de xAI a obtenu exactement zéro. Les humains, quant à eux, ont résolu 100 % des environnements.

Ce n’est pas un test de culture générale ou un examen de codage, ni même des questions ultra-difficiles de niveau doctorat. ARC-AGI-3 est quelque chose de totalement différent de tout ce que l’industrie de l’IA a affronté auparavant.

Le benchmark a été conçu par la fondation de François Chollet et Mike Knoop, qui a mis en place un studio de jeux interne et créé 135 environnements interactifs originaux à partir de zéro. L’idée est de plonger un agent d’IA dans un monde de type jeu inconnu, sans aucune instruction, aucun objectif déclaré, et sans description des règles. L’agent doit explorer, comprendre ce qu’il doit faire, élaborer un plan et l’exécuter.

Si cela ressemble à quelque chose qu’un enfant de cinq ans peut faire, vous commencez à comprendre le problème. Si vous souhaitez voir si vous êtes meilleur que l’IA, vous pouvez jouer aux mêmes jeux que ceux du test en cliquant sur ce lien. Nous en avons essayé un ; c’était étrange au début, mais après quelques secondes, on s’y habitue facilement.

C’est aussi l’exemple le plus clair de ce que signifie le “G” dans AGI. Lorsqu’on généralise, on peut créer de nouvelles connaissances (comment fonctionne un jeu étrange) sans y avoir été entraîné à l’avance.

Les versions précédentes d’ARC testaient des puzzles visuels statiques — montrer un motif, prédire le suivant. Au début, c’était difficile. Puis les laboratoires ont investi en puissance de calcul et en entraînement jusqu’à ce que les benchmarks soient pratiquement dépassés. ARC-AGI-1, introduit en 2019, a été remplacé par des modèles d’entraînement et de raisonnement en temps de test. ARC-AGI-2 a duré environ un an avant que Gemini 3.1 Pro n’atteigne 77,1 %. Les laboratoires sont très efficaces pour saturer les benchmarks contre lesquels ils peuvent s’entraîner.

La version 3 a été conçue spécifiquement pour empêcher cela. Avec 110 des 135 environnements maintenus privés — 55 semi-privés pour les tests API, 55 entièrement verrouillés pour la compétition — il n’y a pas de dataset à mémoriser. On ne peut pas forcer une logique de jeu nouvelle qu’on n’a jamais vue.

Le score n’est pas non plus un simple réussite/échec. ARC-AGI-3 utilise ce que la fondation appelle le RHAE — Efficacité Relative d’Action Humaine. La référence est la performance humaine en deuxième position, lors de la première tentative. Un IA qui prend dix fois plus d’actions qu’un humain obtient 1 % pour ce niveau, pas 10 %. La formule met au carré la pénalité pour inefficacité. Errer, revenir en arrière et deviner pour trouver une solution est sévèrement puni.



Le meilleur agent IA lors de la préversion d’un mois a obtenu 12,58 %. Les LLM de pointe testés via l’API officielle, sans outils personnalisés, n’ont pas réussi à dépasser 1 %. Les humains ordinaires ont résolu tous les 135 environnements sans entraînement préalable ni instructions. Si c’est le standard, alors la génération actuelle de modèles ne le dépasse pas.

Il existe un vrai débat méthodologique ici. Le rapport de l’ARC indique qu’un système personnalisé développé par Duke a permis à Claude Opus 4.6 de passer de 0,25 % à 97,1 % sur une variante d’environnement appelée TR87. Cela ne signifie pas que Claude a obtenu 97,1 % sur l’ensemble d’ARC-AGI-3 ; son score officiel est resté à 0,25 %, mais ce changement mérite d’être noté.

Le benchmark officiel fournit aux agents du code JSON, pas des visuels. C’est soit une faille méthodologique, soit une démonstration que les modèles d’aujourd’hui sont meilleurs pour traiter des informations compréhensibles par l’humain que des données brutes structurées. La fondation de Chollet a reconnu le débat, mais ne modifie pas le format.

« La perception du contenu du cadre et le format API ne limitent pas la performance des modèles de pointe sur ARC-AGI-3 », indique le rapport. En d’autres termes, ils rejettent l’idée que les modèles échouent parce qu’ils « ne voient pas » correctement les tâches, arguant plutôt que la perception est déjà suffisante — et que le vrai écart réside dans le raisonnement et la généralisation.

Le constat sur la réalité de l’AGI est arrivé à un moment où la machine à hype tournait à plein régime. Outre le commentaire de Huang, Arm a nommé son nouveau processeur de centre de données « CPU AGI ». Sam Altman d’OpenAI a déclaré qu’ils avaient « pratiquement construit l’AGI », et Microsoft commercialise déjà un laboratoire axé sur la construction d’un ASI : une évolution de ce qui vient après l’atteinte de l’AGI. Le terme est étiré jusqu’à ce qu’il signifie tout ce qui est commercialement pratique, semble-t-il.

La position de Chollet est plus simple. Si un humain normal sans instructions peut le faire, et que votre système ne peut pas, alors vous n’avez pas d’AGI — vous avez une autocomplétion très coûteuse qui nécessite beaucoup d’aide.

Le prix ARC 2026 offre 2 millions de dollars répartis sur trois compétitions, toutes hébergées sur Kaggle. Chaque solution gagnante doit être open source. Le compte à rebours est lancé, et pour l’instant, les machines ne sont même pas proches.

Newsletter Debrief Quotidien

Commencez chaque jour avec les principales actualités, plus des articles originaux, un podcast, des vidéos et plus encore.

Votre Email

Recevez-la !

XAI0,08%
GROK-0,61%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler