Selon le suivi Beating Monitoring, l’institution d’évaluation AI Vals AI a publié la deuxième génération de tests de référence pour l’agent financier intelligent (Finance Agent v2). Il s’agit d’un test de bout en bout simulant le flux de travail d’un analyste financier débutant, comprenant 927 questions examinées par des experts. La difficulté du nouveau test a considérablement augmenté, GPT 5.5 n’ayant atteint qu’une précision de 51,76 %, en tête, avec des scores très serrés par rapport à Claude Opus 4.7 (51,51 %) et Claude Sonnet 4.6 (51,03 %).

Contrairement aux questions à tour unique, ce test exige que le modèle recherche de manière autonome dans des centaines de pages de rapports financiers 10-K et 10-Q, ajuste les états financiers d’années différentes, et effectue des calculs multi-étapes avec des chiffres intermédiaires précis. Vals AI a révélé que, si l’on applique une norme stricte de « réponse totalement correcte », la précision de tous les modèles de pointe chute en dessous de 40 % ; dans les catégories les plus difficiles de « modélisation financière » et « analyse de précédents », le score maximum n’atteint que 23 %.

Concernant les autres modèles, Kimi K2.6 se classe cinquième avec 44,87 %, étant le modèle national le mieux noté ; suivi de près par GLM 5.1 (44,79 %) et DeepSeek V4 (44,08 %). De plus, l’équipe officielle a attribué le label « vitesse la plus rapide » à Claude Opus 4.7 (temps par question de 360 secondes), tandis que GLM 5.1 a obtenu le label « économie de budget » (coût par question de 0,62 dollar).

Ce déclin collectif des scores par rapport à la génération précédente (Opus 4.7 ayant obtenu 64,4 %) prouve une chose : l’IA actuelle peut gérer la recherche simple, mais dans le domaine complexe de la finance, où il faut respecter des pratiques sectorielles spécifiques et où la précision numérique est cruciale, elle est encore loin de pouvoir remplacer les analystes humains.

40,3%

GLM1,19%

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
GateSquareMayTradingShare
1.63M Popularité
#
IsraelStrikesIranBTCPlunges
46.65K Popularité
#
#DailyPolymarketHotspot
933.37K Popularité
#
JaneStreetReducesBitcoinETFHoldings
103.11K Popularité
#
TrumpVisitsChina
61.12K Popularité

Épinglé

L'IA peut-elle remplacer les analystes financiers ? Le nouveau test de Vals AI a totalement échoué, la précision de GPT 5.5 à peine au-dessus de la moitié

Sujets populaires

GateSquareMayTradingShare

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

JaneStreetReducesBitcoinETFHoldings

TrumpVisitsChina

Épinglé