ARC-AGI-3 annonce le plus grand test humain de l'histoire : tous les niveaux ont été franchis par l'homme, l'IA a encore des écarts

robot
Création du résumé en cours

ME News Actualités, le 15 avril (UTC+8), selon la surveillance de Dongcha Beating, la Fondation ARC Prize a publié le jeu de données de performance humaine ARC-AGI-3, qui est la plus grande étude de test humain de la série ARC-AGI à ce jour, avec 458 participants. Le jeu de données comprend 342 enregistrements complets de sessions d’opérations humaines, couvrant 25 environnements publics, tous open source. ARC-AGI-3 comprend 135 environnements de raisonnement abstrait, où les testeurs ne reçoivent aucune instruction de jeu, doivent explorer, inférer les règles et élaborer des stratégies eux-mêmes. Les tests ont lieu dans un centre de test hors ligne à San Francisco, chaque session dure 90 minutes, avec un salaire de base d’environ 130 dollars plus 5 dollars par environnement réussi. Tous les tests sont sous la condition de « première réussite », c’est-à-dire qu’une seule tentative par personne, évaluant la capacité d’apprentissage et d’adaptation face à des problèmes entièrement nouveaux. Les humains et l’IA disposent des mêmes informations, sans aucune différence d’information. Conclusion principale : tous les environnements d’ARC-AGI-3 ont été passés par des humains, avec au moins deux participants indépendants ayant réussi dans chaque environnement, la majorité en plus de cinq. La Fondation ARC Prize affirme « nous n’avons pas encore réalisé l’AGI, cette base de données en est la preuve ». Depuis la preview d’ARC-AGI-3, près d’un million de soumissions d’évaluation IA ont été reçues pour les environnements publics. Sur la base de ces données, la fondation annonce également deux ajustements dans les règles de notation : d’une part, la référence humaine pour chaque niveau passe de « le deuxième meilleur joueur » à « le joueur médian », réduisant l’impact de la chance sur le score ; d’autre part, la limite de score par niveau est augmentée de 100 % à 115 %, afin d’éviter qu’une mauvaise performance dans un niveau ne pénalise le score global. L’effet net de ces deux ajustements est une légère augmentation des scores humains et IA d’environ 0,5 point de pourcentage. (Source : BlockBeats)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler