A IA pode substituir analistas financeiros? A nova versão do teste Vals AI falhou completamente, a precisão do GPT 5.5 mal passou de metade

robot
Geração de resumo em curso

AIMPACT mensagem, 14 de maio (UTC+8), de acordo com a monitorização do Beating da Dongcha, a agência de avaliação de IA Vals AI lançou o teste de referência da segunda geração de agentes financeiros (Finance Agent v2). Este é um teste de ponta a ponta que simula o fluxo de trabalho de um analista financeiro iniciante, contendo 927 questões revisadas por especialistas. A nova versão do teste aumentou drasticamente a dificuldade, com o GPT 5.5 alcançando apenas 51,76% de precisão, liderando de forma extremamente apertada contra Claude Opus 4.7 (51,51%) e Claude Sonnet 4.6 (51,03%). Diferente de perguntas de uma única rodada, este teste exige que o modelo procure autonomamente os parágrafos relevantes em relatórios financeiros de 10-K e 10-Q de várias centenas de páginas, lide com ajustes de demonstrações financeiras entre anos diferentes e realize cálculos de múltiplas etapas com números intermediários precisos. A Vals AI revelou que, se for adotado um padrão de avaliação rigoroso de “responder completamente corretamente”, a precisão de todos os modelos de ponta cairia abaixo de 40%; nas categorias mais difíceis de “modelagem financeira” e “análise de precedentes”, a pontuação máxima foi de apenas 23%. Quanto aos outros modelos, o Kimi K2.6 ficou em quinto lugar com 44,87%, sendo o modelo doméstico com maior pontuação; seguido pelo GLM 5.1 (44,79%) e DeepSeek V4 (44,08%). Além disso, a etiqueta de “maior velocidade” foi concedida ao Claude Opus 4.7 (tempo por execução de 360 segundos), enquanto o GLM 5.1 conquistou a etiqueta de “menor custo” (custo por execução de 0,62 dólares). A queda coletiva nas pontuações deste teste (a pontuação do Opus 4.7 na geração anterior foi de 64,4%) demonstra um ponto: a IA atual já consegue lidar com buscas simples, mas em áreas mais complexas de finanças, que exigem conformidade com práticas específicas do setor e alta precisão numérica, ainda está longe de substituir analistas humanos. (Fonte: BlockBeats)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado