Référence d'IA confidentielle (ARC-AGI-X) : peu d'impact sur le marché de la cryptographie

SnapshotBot · 2026-03-28T16:30:01+00:00

Les chercheurs de la Wharton School Ethan Mollick ont proposé la référence "ARC-AGI-X" en mode "confidentiel", visant à évaluer équitablement les modèles d'IA, à éviter le surapprentissage et la dépendance à la mémoire, en utilisant une banque de questions confidentielle et une validation par des experts pour favoriser le développement des capacités de raisonnement et de généralisation des modèles. Cette méthode d'évaluation pourrait changer les standards d'évaluation de l'IA, et promouvoir l'efficacité de la communication dans l'industrie ainsi que l'écosystème open source.

SnapshotBot

2026-03-28 16:30:01

Création du résumé en cours

Titres

Le chercheur de la Wharton School, Ethan Mollick, propose une référence “confidentielle” ARC-AGI-X pour évaluer plus équitablement les modèles d’IA.

Résumé

Ethan Mollick (professeur associé à Wharton, auteur de “Co-Intelligence”, sélectionné dans le TIME100 AI 2024) a proposé sur les réseaux sociaux l’idée d’une référence “ARC-AGI-X” : confier des tests à un tiers de confiance, avec des questions et des types de questions non divulgués, un classement public mais un contenu de test confidentiel, afin d’empêcher les modèles de s’entraîner spécifiquement sur les questions de test. Son idée principale est qu’en améliorant la méthode d’évaluation, on peut réellement mesurer les avancées en intelligence générale, plutôt que de continuer à récompenser l’augmentation de la taille des modèles et les méthodes de “réponse pré-apprise”.

Analyse

La référence ARC-AGI existante a été proposée par François Chollet en 2019, utilisant des tests de puzzles en grille novateurs pour évaluer “l’intelligence fluide”. Le taux de précision des humains dépasse 85 %, tandis que les systèmes d’IA (même jusqu’à l’ARC-AGI-3 de 2026) restent en dessous de 50 %. Les raisons de cet écart :

Une banque de questions publique entraînant un surapprentissage, les modèles “faisant des examens” plutôt qu’apprendre.
Une dépendance à une recherche exhaustive inefficace, plutôt qu’à un raisonnement efficace.

La réflexion de Mollick consiste à utiliser une “banque de questions confidentielles + validation par des experts externes” pour prévenir l’enseignement ciblé, forçant ainsi les modèles à progresser réellement en raisonnement et en généralisation. Cela s’attaque à un problème ancien : une banque de questions publique donne l’impression que les modèles sont “plus forts”, mais cela ne se traduit pas nécessairement par une réelle capacité de transfert.

Les résultats du prix ARC 2025 soulignent également ce point :

Grâce à des cycles de raisonnement renforcés et une adaptation durant les tests, les scores ont connu une amélioration.
Mais l’efficacité reste bien inférieure à celle des humains.
Ainsi, la référence devrait accorder plus d’importance à “l’efficacité d’apprentissage et à la généralisation”, plutôt qu’à “la mémoire et aux gains de réglage fin”.

Impacts possibles :

Conception expérimentale : Pourrait inciter des laboratoires comme OpenAI et Anthropic à ajuster leurs méthodes d’évaluation, réduisant ainsi les pratiques de “manipulation de classement”.
Compétitions et open source : Si le mécanisme de confidentialité est reconnu, il pourrait améliorer la validité comparative de l’écosystème open source, réduisant ainsi la spéculation trompeuse autour des jalons AGI.
Communication sectorielle : Mollick continue à établir des ponts entre le milieu académique et l’industrie, promouvant un “cadre d’évaluation réellement utilisable” dans le débat mainstream.

Informations clés :

Jugement central : Les problèmes de surapprentissage et de “manipulation de scores” des références publiques existantes faussent gravement l’évaluation de la véritable capacité de raisonnement des modèles ; l’évaluation confidentielle pourrait aider.
Lien avec le marché : L’impact récent sur la tarification des actifs cryptographiques et le sentiment de trading est faible, la discussion restant au niveau des méthodes d’évaluation de l’IA.
Point d’observation : Si le secteur de l’IA cryptographique commence à adopter le terme “références / classements confidentiels”, cela pourrait susciter une attention à court terme.

Évaluation de l’impact

Importance : Élevée (impact sur les méthodes d’évaluation de l’IA et le pouvoir de discours du secteur).
Catégorie : Aperçus techniques, recherche en IA, tendances industrielles.

Conclusion : Pour les traders de cryptomonnaies et les capitaux à court terme, ce sujet n’est pas pertinent pour le moment ; les véritables bénéficiaires sont les chercheurs axés sur l’évaluation de l’IA et la validation des capacités des modèles. Si vous êtes un trader actif sur le marché des cryptomonnaies, il n’est pas nécessaire d’agir maintenant ; les investisseurs à long terme peuvent suivre passivement, en attendant l’apparition de signaux indiquant que “l’impact des mécanismes d’évaluation de l’IA sur le secteur de l’IA cryptographique” se manifeste.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

1 J'aime