Le site Web Coinjie a annoncé que AA-Briefcase a déclaré que Claude Fable 5 a remporté la première place lors de l’évaluation, tandis que GLM-5.2 s’est classé parmi les trois premiers.
L’organisme d’évaluation Artificial Analysis a lancé la première référence d’évaluation de travail de connaissance à long terme conçue spécifiquement pour les agents de grands modèles, couvrant quatre scénarios : science des données, gestion de produit, opérations bancaires et stratégie de l’industrie lourde, développée par des experts de Google, McKinsey et Boston Consulting.
Elle comprend 91 tâches, visant à simuler des flux de projets commerciaux complexes et réels.
Les résultats montrent que Claude Fable 5 a obtenu la meilleure note globale, suivi de Claude Opus 4.8 en deuxième position et GLM-5.2 en troisième.
Bien que Claude Fable 5 ait performé de manière impressionnante, son taux de perfection selon la norme stricte de réussite totale à chaque tâche n’est que de 3 %.
En ce qui concerne les modèles open source, le GLM-5.2 de Zhipu a montré une performance remarquable, avec une note globale seulement 90 points inférieure à celle de Claude Opus 4.8, mais avec un coût d’exploitation inférieur à 25 %.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

3 J'aime

Récompense
3
4
1
Partager

Commentaire

Ajouter un commentaire

MempoolMaggie

· Il y a 6h

Claude Fable 5 remporte la victoire mais avec un taux de réussite parfait de 3 %, ce chiffre est assez déprimant, ce qui indique que les tâches à long terme restent un défi de niveau infernal pour l'IA.

Voir l'originalRépondre0

SandwichAlertAgent

· Il y a 6h

Opus 4.8 la position du deuxième est un peu gênante, elle est chère mais pas stable, Anthropic doit réfléchir à comment raconter une histoire.

Voir l'originalRépondre0

BridgeHopRanger

· Il y a 6h

Le GLM-5.2 open source offre un rapport qualité-prix incroyable, avec une différence de score de 90 points tout en économisant 75 % des coûts, les entreprises doivent repenser leur budget.

Voir l'originalRépondre0

GlassDomeObservatory

· Il y a 6h

91 tâches couvrent quatre industries, soutenues par Google et McKinsey, je reconnais la valeur de cette norme.

Voir l'originalRépondre0

Sujets populaires
Afficher plus
#
MyGateTradeStory
866,47K Popularité
#
WarshDebutsAsFedHoldsRatesSteady
1,45M Popularité
#
IsraelStrikesIranBTCPlunges
59,33K Popularité
#
PredictWorldCup🇺🇸vs🇵🇾
897,34K Popularité
#
TradFiCFDGoldMaster
1,32M Popularité

Épinglé

AA-Briefcase publié : Claude Fable 5 remporte la victoire, GLM-5.2 se glisse dans le top trois

Sujets populaires

MyGateTradeStory

WarshDebutsAsFedHoldsRatesSteady

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

TradFiCFDGoldMaster

Épinglé