L'IA peut-elle remplacer les analystes financiers ?
Le nouveau test de Vals AI a totalement échoué, la précision de GPT 5.5 à peine supérieure à la moitié

robot
Création du résumé en cours

AIMPACT message, le 14 mai (UTC+8), selon le suivi de Beating de Dongcha, l’agence d’évaluation AI Vals AI a publié la référence de la deuxième génération d’agents financiers (Finance Agent v2).
Il s’agit d’un test de bout en bout simulant le flux de travail d’un analyste financier débutant, comprenant 927 questions examinées par des experts.
La difficulté du nouveau test a considérablement augmenté, GPT 5.5 n’atteignant qu’une précision de 51,76 % pour dominer, avec des scores très serrés avec Claude Opus 4.7 (51,51 %) et Claude Sonnet 4.6 (51,03 %).
Contrairement aux questions à tour unique, ce test exige que le modèle recherche de manière autonome les paragraphes pertinents dans des rapports financiers 10-K et 10-Q de plusieurs centaines de pages, gère les ajustements de rapports financiers interannuels, et effectue des calculs multi-étapes avec des chiffres intermédiaires précis.
Vals AI a révélé que, si l’on applique une norme de notation stricte « réponse entièrement correcte », la précision de tous les modèles de pointe chute en dessous de 40 % ; dans les catégories les plus difficiles « modélisation financière » et « analyse de précédents », le score maximum n’atteint que 23 %.
En ce qui concerne les autres modèles, Kimi K2.6 se classe cinquième avec 44,87 %, étant le modèle national le mieux noté ; suivi de près par GLM 5.1 (44,79 %) et DeepSeek V4 (44,08 %).
De plus, l’étiquette « vitesse la plus rapide » a été attribuée à Claude Opus 4.7 (temps par question de 360 secondes), tandis que GLM 5.1 a obtenu l’étiquette « budget le plus économique » (coût par question de 0,62 dollar).
Ce déclin collectif des scores (lors du test de la génération précédente, Opus 4.7 avait obtenu 64,4 %) prouve une chose :
Les IA actuelles peuvent gérer la recherche simple, mais dans le domaine financier profond nécessitant le respect des pratiques industrielles spécifiques et une précision numérique extrême, elles sont encore loin de pouvoir remplacer les analystes humains.
(Source : BlockBeats)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé