L'avis de Mollick : ARC-AGI-3 n'est pas une version améliorée, c'est quelque chose de complètement différent

SnapshotBot · 2026-03-29T00:25:00+00:00

Ethan Mollick a souligné que ARC-AGI-3 ne peut pas être directement comparé aux deux premières générations, en insistant sur le fait qu'il teste la capacité du modèle à explorer, comprendre et s'adapter dans un environnement interactif, et que la méthode d'évaluation s'oriente désormais vers la comparaison avec l'efficacité humaine. La nouvelle référence met davantage l'accent sur la capacité du modèle à apprendre rapidement et à résoudre des problèmes de manière autonome, ce qui aura une influence importante sur la recherche et le développement en IA.

SnapshotBot

2026-03-29 00:25:00

Création du résumé en cours

Mollick怎么说

L’opinion d’Ethan Mollick (Wharton School) est claire : ne comparez pas ARC-AGI-3 aux deux premières générations.
Il dit que c’est un “test complètement différent”, les règles ont changé, et ce qui est évalué a également changé.
Vous pouvez le considérer comme une nouvelle référence utile, mais ne vous attendez pas à ce qu’il soit comparable aux précédentes versions.

到底哪里不一样

ARC-AGI-1 et 2 étaient principalement des énigmes de grille statiques, vous donnant des entrées et des sorties pour une réponse à la fois.
ARC-AGI-3 plonge le modèle dans un environnement interactif, exigeant qu’il :

Explore par lui-même et comprenne quels sont les objectifs
Établisse une compréhension de l’environnement sur la base de retours limités
Planifie des actions en plusieurs étapes et les exécute
Ajuste en cours de route, corrigeant les erreurs lorsqu’il se trompe

La méthode de notation a également changé : l’essentiel est de voir comment vous vous en sortez par rapport aux humains pour accomplir la même tâche.

François Chollet définit l’objectif d’ARC-AGI-3 comme “l’efficacité d’acquisition de compétences” : le modèle peut-il rapidement apprendre de nouvelles tâches par un raisonnement de base, plutôt que de simplement appliquer des modèles sur des données déjà vues.

三代对比

版本	任务类型	交互程度	怎么打分
ARC-AGI-1/-2	Énigmes de grille statiques, réponse unique	Faible	Exactitude de la réponse
ARC-AGI-3	Environnement interactif, exploration-planification-exécution	Élevé	Efficacité par rapport aux humains

为什么结果差这么多

Taux de résolution des problèmes par des humains : 100%
Score des meilleurs modèles : moins de 1%

Cette référence a été délibérément conçue pour ne pas permettre d’accumuler des données ou d’utiliser des calculs de force brute pour obtenir des scores.
Elle touche directement les points faibles des modèles actuels : la capacité de généralisation et la rapidité d’apprentissage sont insuffisantes.

对评测和研究意味着什么

Les références statiques peuvent facilement être “domptées” - un modèle peut obtenir un score élevé s’il a vu des données d’entraînement similaires, mais ses capacités n’ont pas nécessairement été réellement améliorées.
ARC-AGI-3 vise à mesurer quelque chose de plus proche de l’autonomie réelle :

Peut-il explorer un environnement inconnu et établir une compréhension ?
Peut-il planifier et exécuter en cas d’informations incomplètes ?
Peut-il s’adapter et corriger ses erreurs avec peu de retours ?

Un système d’incitation et un calendrier ont également été établis :

ARC Prize 2026 : 850 000 $ de prix
ARC-AGI-4 : prévu pour début 2027
Mises à jour annuelles : la cible est toujours en mouvement, la référence ne sera pas rapidement dépassée

对研究者和开发者的影响

Importance : Élevée - La référence a changé, les priorités de recherche et développement doivent s’ajuster en conséquence
Type : Recherche en IA, analyse technique, tendances du secteur
Point central : ARC-AGI-3 mesure “la rapidité d’apprentissage de nouvelles choses”, pas “le nombre de questions déjà vues auxquelles on peut répondre”

Jugement : Si vous travaillez sur une IA avec de véritables capacités d’autonomie, c’est encore tôt, mais la direction devient de plus en plus claire.
Les équipes de R&D à long terme et les fonds de recherche sont les plus concernés ; pour des opérations à court terme, il est plus prudent d’attendre des percées de capacité vérifiables et des points de commercialisation.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

1 J'aime