A IA pode substituir analistas financeiros? A nova versão do teste Vals AI foi um fracasso total, a precisão do GPT 5.5 mal passou de metade

robot
Geração de resumo em curso

De acordo com o monitoramento Beating, a instituição de avaliação de IA Vals AI lançou o teste de referência da segunda geração de agentes financeiros (Finance Agent v2). Este é um teste de ponta a ponta que simula o fluxo de trabalho de um analista financeiro iniciante, contendo 927 questões revisadas por especialistas.
A dificuldade do novo teste aumentou significativamente, com o GPT 5.5 alcançando uma precisão de apenas 51,76%, liderando de forma extremamente apertada, seguido pelo Claude Opus 4.7 (51,51%) e Claude Sonnet 4.6 (51,03%).

Ao contrário de perguntas de uma única rodada, este teste exige que o modelo procure autonomamente os trechos relevantes em relatórios financeiros de 10-K e 10-Q de várias páginas, ajuste relatórios financeiros de diferentes anos e realize cálculos de múltiplas etapas com números intermediários precisos.
A Vals AI revelou que, se for adotado um padrão de avaliação rigoroso de “responder completamente corretamente”, a precisão de todos os modelos de ponta cairia abaixo de 40%; nas categorias mais difíceis de “modelagem financeira” e “análise de precedentes”, a pontuação máxima foi de apenas 23%.

Quanto aos outros modelos, Kimi K2.6 ficou em quinto lugar com 44,87%, sendo o modelo doméstico com maior pontuação; seguido por GLM 5.1 (44,79%) e DeepSeek V4 (44,08%).
Além disso, a etiqueta de “mais rápido” foi concedida ao Claude Opus 4.7 (tempo por execução de 360 segundos), enquanto o GLM 5.1 conquistou a etiqueta de “mais econômico” (custo por execução de 0,62 dólares).

A queda coletiva na pontuação deste teste (a pontuação do Opus 4.7 na geração anterior foi de 64,4%) provou um ponto:
Atualmente, a IA já consegue lidar com buscas simples, mas no profundo setor financeiro, que exige conformidade com práticas específicas da indústria e alta precisão numérica, ela ainda está longe de substituir analistas humanos.

4-2,5%
GLM-0,91%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado