¿Puede la IA reemplazar a los analistas financieros? La nueva versión de Vals AI fracasó por completo en las pruebas, la precisión de GPT 5.5 apenas supera la mitad

robot
Generación de resúmenes en curso

Según la monitorización de Beating, la organización de evaluación de IA Vals AI publicó la segunda generación de pruebas de referencia para agentes financieros inteligentes (Finance Agent v2).
Se trata de una prueba de extremo a extremo que simula el flujo de trabajo de un analista financiero principiante, incluyendo 927 preguntas revisadas por expertos.
La dificultad de la nueva prueba ha aumentado significativamente, con GPT 5.5 alcanzando solo un 51.76% de precisión para liderar, en una competencia muy reñida con Claude Opus 4.7 (51.51%) y Claude Sonnet 4.6 (51.03%).

A diferencia de las preguntas de una sola ronda, esta prueba requiere que el modelo busque de forma autónoma los párrafos relevantes en informes financieros de 10-K y 10-Q que pueden abarcar varias páginas, maneje ajustes en los estados financieros de diferentes años y realice cálculos de múltiples pasos con números intermedios precisos.
Vals AI reveló que, si se aplica un estándar de puntuación estricto de «debe responder completamente correcto», la precisión de todos los modelos de vanguardia caería por debajo del 40%; en las categorías más difíciles de «modelado financiero» y «análisis de precedentes», la puntuación máxima solo alcanza el 23%.

En cuanto a otros modelos, Kimi K2.6 ocupa el quinto lugar con un 44.87%, siendo el modelo nacional de mayor puntuación; seguido por GLM 5.1 (44.79%) y DeepSeek V4 (44.08%).
Además, la etiqueta de «máxima velocidad» fue otorgada a Claude Opus 4.7 (tiempo por respuesta de 360 segundos), mientras que la etiqueta de «más económico» fue para GLM 5.1 (costo por respuesta de 0.62 dólares).

La caída colectiva en las puntuaciones de esta prueba (la generación anterior, Opus 4.7, obtuvo un 64.4%) demuestra una cosa:
los IA actuales ya pueden manejar búsquedas simples, pero en las áreas profundas de las finanzas que requieren seguir prácticas específicas de la industria y una precisión numérica extremadamente alta, todavía están muy lejos de reemplazar a los analistas humanos.

4-2,5%
GLM-0,91%
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado