Examen d'entrée pour l'agent : La tâche la plus difficile de Fable 5 reste sans réponse, avec un coût par question 4 à 12 fois supérieur

robot
Création du résumé en cours
ME AI Message, selon la surveillance de Beating, l'Université de Californie à Berkeley RDI, en collaboration avec des centaines d'experts du secteur, a lancé une nouvelle référence d’évaluation des agents intelligents, Agents' Last Exam (ALE), pour évaluer la capacité des intelligences à réaliser des tâches professionnelles numériques réelles. ALE couvre 55 sous-domaines professionnels numériques, collecte plus de 1500 tâches de validation issues de projets réels d'experts humains, et supporte la validation des résultats en environnement GUI et CLI. La première série de tests a inclus des systèmes de pointe tels que Fable 5, GPT-5.5 et Composer 2.5. Selon la dernière comparaison officielle, dans les tâches les plus difficiles nécessitant un raisonnement continu et de solides connaissances spécialisées, tous les agents testés ont un taux de réussite de 0 %, Fable 5, publié cette semaine, a également rendu une feuille blanche. Cela est principalement dû au déclenchement de stratégies de sécurité lors de l’évaluation, environ 35 % des tâches de Fable 5 ont été rétrogradées vers l’ancienne version Opus 4.8, ce qui a considérablement réduit ses performances par rapport aux autres classements. En termes de coût API par tâche, Fable 5 coûte environ 15,70 dollars, bien plus que GPT-5.5 à 3,80 dollars et Composer 2.5 à 1,33 dollars, avec un coût 4 à 12 fois supérieur pour une tâche identique. Les tests ont également révélé que la cause la plus courante d’échec des intelligences est la déclaration prématurée de succès, lorsqu’elles terminent hâtivement sans vérification réelle des résultats, ou en omettant des fichiers ou en commettant des erreurs de calcul. Pour les intelligences en ligne de commande, l’équipe d’évaluation a publié simultanément une version subset appelée ALE-CLI. Comparé à Terminal-Bench et SWE-bench-Pro, ALE-CLI couvre 40 sous-domaines, et le temps moyen humain pour une tâche unique peut atteindre plusieurs heures voire plusieurs semaines. Dans les évaluations en ligne de commande, le taux de réussite des intelligences les plus performantes n’atteint que 25,2 %. L’équipe d’évaluation indique que l’ère des intelligences faciles à utiliser est arrivée, mais qu’il reste encore beaucoup de chemin à parcourir avant qu’elles puissent réellement remplacer les humains sur le terrain. (Source : MLion)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé