AA-Briefcase publié : Claude Fable 5 remporte la victoire, GLM-5.2 se glisse dans le top trois

robot
Création du résumé en cours
Le site Web Coinjie a annoncé que AA-Briefcase a déclaré que Claude Fable 5 a remporté la première place lors de l’évaluation, tandis que GLM-5.2 s’est classé parmi les trois premiers.
L’organisme d’évaluation Artificial Analysis a lancé la première référence d’évaluation de travail de connaissance à long terme conçue spécifiquement pour les agents de grands modèles, couvrant quatre scénarios : science des données, gestion de produit, opérations bancaires et stratégie de l’industrie lourde, développée par des experts de Google, McKinsey et Boston Consulting.
Elle comprend 91 tâches, visant à simuler des flux de projets commerciaux complexes et réels.
Les résultats montrent que Claude Fable 5 a obtenu la meilleure note globale, suivi de Claude Opus 4.8 en deuxième position et GLM-5.2 en troisième.
Bien que Claude Fable 5 ait performé de manière impressionnante, son taux de perfection selon la norme stricte de réussite totale à chaque tâche n’est que de 3 %.
En ce qui concerne les modèles open source, le GLM-5.2 de Zhipu a montré une performance remarquable, avec une note globale seulement 90 points inférieure à celle de Claude Opus 4.8, mais avec un coût d’exploitation inférieur à 25 %.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 4
  • 1
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
MempoolMaggie
· Il y a 6h
Claude Fable 5 remporte la victoire mais avec un taux de réussite parfait de 3 %, ce chiffre est assez déprimant, ce qui indique que les tâches à long terme restent un défi de niveau infernal pour l'IA.
Voir l'originalRépondre0
SandwichAlertAgent
· Il y a 6h
Opus 4.8 la position du deuxième est un peu gênante, elle est chère mais pas stable, Anthropic doit réfléchir à comment raconter une histoire.
Voir l'originalRépondre0
BridgeHopRanger
· Il y a 6h
Le GLM-5.2 open source offre un rapport qualité-prix incroyable, avec une différence de score de 90 points tout en économisant 75 % des coûts, les entreprises doivent repenser leur budget.
Voir l'originalRépondre0
GlassDomeObservatory
· Il y a 6h
91 tâches couvrent quatre industries, soutenues par Google et McKinsey, je reconnais la valeur de cette norme.
Voir l'originalRépondre0
  • Épinglé