A IA pode substituir analistas financeiros? A nova versão do teste Vals AI falhou completamente, a precisão do GPT 5.5 mal passou de metade

Question

AIMPACT mensagem, 14 de maio (UTC+8), de acordo com a monitorização do Beating da Dongcha, a agência de avaliação de IA Vals AI lançou o teste de referência da segunda geração de agentes financeiros (Finance Agent v2). Este é um teste de ponta a ponta que simula o fluxo de trabalho de um analista financeiro iniciante, contendo 927 questões revisadas por especialistas. A nova versão do teste aumentou drasticamente a dificuldade, com o GPT 5.5 alcançando apenas 51,76% de precisão, liderando de forma extremamente apertada contra Claude Opus 4.7 (51,51%) e Claude Sonnet 4.6 (51,03%). Diferente de perguntas de uma única rodada, este teste exige que o modelo procure autonomamente os parágrafos relevantes em relatórios financeiros de 10-K e 10-Q de várias centenas de páginas, lide com ajustes de demonstrações financeiras entre anos diferentes e realize cálculos de múltiplas etapas com números intermediários precisos. A Vals AI revelou que, se for adotado um padrão de avaliação rigoroso de "responder completamente corretamente", a precisão de todos os modelos de ponta cairia abaixo de 40%; nas categorias mais difíceis de "modelagem financeira" e "análise de precedentes", a pontuação máxima foi de apenas 23%. Quanto aos outros modelos, o Kimi K2.6 ficou em quinto lugar com 44,87%, sendo o modelo doméstico com maior pontuação; seguido pelo GLM 5.1 (44,79%) e DeepSeek V4 (44,08%). Além disso, a etiqueta de "maior velocidade" foi concedida ao Claude Opus 4.7 (tempo por execução de 360 segundos), enquanto o GLM 5.1 conquistou a etiqueta de "menor custo" (custo por execução de 0,62 dólares). A queda coletiva nas pontuações deste teste (a pontuação do Opus 4.7 na geração anterior foi de 64,4%) demonstra um ponto: a IA atual já consegue lidar com buscas simples, mas em áreas mais complexas de finanças, que exigem conformidade com práticas específicas do setor e alta precisão numérica, ainda está longe de substituir analistas humanos. (Fonte: BlockBeats)

A IA pode substituir analistas financeiros? A nova versão do teste Vals AI falhou completamente, a precisão do GPT 5.5 mal passou de metade

Tópicos em destaque

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

Fixado