¿Puede la IA reemplazar a los analistas financieros? La nueva versión de Vals AI fracasó completamente en las pruebas, la precisión de GPT 5.5 apenas supera la mitad

robot
Generación de resúmenes en curso

AIMPACT Mensaje, 14 de mayo (UTC+8), según la monitorización de Dongcha Beating, la organización de evaluación de IA Vals AI publicó la segunda generación de la prueba de referencia de agentes financieros (Finance Agent v2).
Esta es una prueba de extremo a extremo que simula el flujo de trabajo de un analista financiero principiante, que incluye 927 preguntas revisadas por expertos.
La dificultad de la nueva prueba ha aumentado significativamente, con GPT 5.5 alcanzando solo un 51.76% de precisión para liderar, en una competencia muy reñida con Claude Opus 4.7 (51.51%) y Claude Sonnet 4.6 (51.03%).
A diferencia de las preguntas de una sola ronda, esta prueba requiere que el modelo busque de forma autónoma los párrafos relevantes en informes financieros de 10-K y 10-Q que pueden abarcar varias páginas, maneje ajustes en los estados financieros de diferentes años y realice cálculos de múltiples pasos con números intermedios precisos.
Vals AI reveló que, si se adopta un estándar de puntuación estricto de “debe responder correctamente en su totalidad”, la precisión de todos los modelos de vanguardia caería por debajo del 40%; en las categorías más difíciles de “modelado financiero” y “análisis de precedentes”, la puntuación máxima solo alcanza el 23%.
En cuanto a otros modelos, Kimi K2.6 ocupa el quinto lugar con un 44.87%, siendo el modelo nacional con mejor puntuación; seguido por GLM 5.1 (44.79%) y DeepSeek V4 (44.08%).
Además, la etiqueta de “máxima velocidad” fue otorgada a Claude Opus 4.7 (tiempo por respuesta de 360 segundos), mientras que la etiqueta de “más económico” fue para GLM 5.1 (costo por respuesta de 0.62 dólares).
La caída colectiva en las puntuaciones en esta prueba (la generación anterior, Opus 4.7, obtuvo un 64.4%) demuestra un hecho:
los IA actuales ya pueden manejar búsquedas simples, pero en las áreas profundas de las finanzas que requieren seguir prácticas específicas de la industria y una precisión numérica extremadamente alta, todavía están muy lejos de reemplazar a los analistas humanos.
(Origen: BlockBeats)

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado