A IA pode substituir analistas financeiros? A nova versão do teste do Vals AI fracassa completamente, a precisão do GPT 5.5 mal passa de metade

robot
Geração do resumo em andamento

De acordo com o monitoramento Beating, a instituição de avaliação de IA Vals AI lançou o teste de referência da segunda geração de agentes financeiros (Finance Agent v2). Este é um teste de ponta a ponta que simula o fluxo de trabalho de um analista financeiro iniciante, contendo 927 questões revisadas por especialistas.
A dificuldade do novo teste aumentou drasticamente, com o GPT 5.5 alcançando uma precisão de apenas 51,76%, liderando de forma extremamente apertada contra Claude Opus 4.7 (51,51%) e Claude Sonnet 4.6 (51,03%).

Ao contrário de perguntas de uma única rodada, este teste exige que o modelo procure autonomamente os trechos relevantes em relatórios financeiros de 10-K e 10-Q de várias páginas, lide com ajustes em demonstrações financeiras de diferentes anos e realize cálculos de múltiplas etapas com números intermediários precisos. A Vals AI revelou que, se for adotado um padrão de avaliação rigoroso de “precisão total”, a precisão de todos os modelos de ponta cairia abaixo de 40%; nas categorias mais difíceis de “modelagem financeira” e “análise de precedentes”, a pontuação máxima foi de apenas 23%.

Em relação aos outros modelos, Kimi K2.6 ficou em quinto lugar com 44,87%, sendo o modelo doméstico com maior pontuação; seguido por GLM 5.1 (44,79%) e DeepSeek V4 (44,08%). Além disso, a equipe oficial concedeu a etiqueta de “mais rápido” ao Claude Opus 4.7 (tempo de resposta de 360 segundos por consulta), enquanto o GLM 5.1 conquistou a etiqueta de “mais econômico” (custo por consulta de 0,62 dólares).

A queda coletiva na pontuação deste teste (a pontuação do Opus 4.7 na geração anterior foi de 64,4%) prova um ponto: a IA atual já consegue lidar com buscas simples, mas no profundo setor financeiro, que exige conformidade com práticas específicas da indústria e alta precisão numérica, ainda está longe de substituir analistas humanos.

4-10,39%
GLM-5,06%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado