L'avis de Mollick : ARC-AGI-3 n'est pas une version améliorée, c'est quelque chose de complètement différent

robot
Création du résumé en cours

Mollick怎么说

L’opinion d’Ethan Mollick (Wharton School) est claire : ne comparez pas ARC-AGI-3 aux deux premières générations.
Il dit que c’est un “test complètement différent”, les règles ont changé, et ce qui est évalué a également changé.
Vous pouvez le considérer comme une nouvelle référence utile, mais ne vous attendez pas à ce qu’il soit comparable aux précédentes versions.

到底哪里不一样

ARC-AGI-1 et 2 étaient principalement des énigmes de grille statiques, vous donnant des entrées et des sorties pour une réponse à la fois.
ARC-AGI-3 plonge le modèle dans un environnement interactif, exigeant qu’il :

  • Explore par lui-même et comprenne quels sont les objectifs
  • Établisse une compréhension de l’environnement sur la base de retours limités
  • Planifie des actions en plusieurs étapes et les exécute
  • Ajuste en cours de route, corrigeant les erreurs lorsqu’il se trompe

La méthode de notation a également changé : l’essentiel est de voir comment vous vous en sortez par rapport aux humains pour accomplir la même tâche.

François Chollet définit l’objectif d’ARC-AGI-3 comme “l’efficacité d’acquisition de compétences” : le modèle peut-il rapidement apprendre de nouvelles tâches par un raisonnement de base, plutôt que de simplement appliquer des modèles sur des données déjà vues.

三代对比

版本 任务类型 交互程度 怎么打分
ARC-AGI-1/-2 Énigmes de grille statiques, réponse unique Faible Exactitude de la réponse
ARC-AGI-3 Environnement interactif, exploration-planification-exécution Élevé Efficacité par rapport aux humains

为什么结果差这么多

  • Taux de résolution des problèmes par des humains : 100%
  • Score des meilleurs modèles : moins de 1%

Cette référence a été délibérément conçue pour ne pas permettre d’accumuler des données ou d’utiliser des calculs de force brute pour obtenir des scores.
Elle touche directement les points faibles des modèles actuels : la capacité de généralisation et la rapidité d’apprentissage sont insuffisantes.

对评测和研究意味着什么

Les références statiques peuvent facilement être “domptées” - un modèle peut obtenir un score élevé s’il a vu des données d’entraînement similaires, mais ses capacités n’ont pas nécessairement été réellement améliorées.
ARC-AGI-3 vise à mesurer quelque chose de plus proche de l’autonomie réelle :

  • Peut-il explorer un environnement inconnu et établir une compréhension ?
  • Peut-il planifier et exécuter en cas d’informations incomplètes ?
  • Peut-il s’adapter et corriger ses erreurs avec peu de retours ?

Un système d’incitation et un calendrier ont également été établis :

  • ARC Prize 2026 : 850 000 $ de prix
  • ARC-AGI-4 : prévu pour début 2027
  • Mises à jour annuelles : la cible est toujours en mouvement, la référence ne sera pas rapidement dépassée

对研究者和开发者的影响

  • Importance : Élevée - La référence a changé, les priorités de recherche et développement doivent s’ajuster en conséquence
  • Type : Recherche en IA, analyse technique, tendances du secteur
  • Point central : ARC-AGI-3 mesure “la rapidité d’apprentissage de nouvelles choses”, pas “le nombre de questions déjà vues auxquelles on peut répondre”

Jugement : Si vous travaillez sur une IA avec de véritables capacités d’autonomie, c’est encore tôt, mais la direction devient de plus en plus claire.
Les équipes de R&D à long terme et les fonds de recherche sont les plus concernés ; pour des opérations à court terme, il est plus prudent d’attendre des percées de capacité vérifiables et des points de commercialisation.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler