A IA pode substituir analistas financeiros? O novo teste da Vals AI fracassa completamente, a precisão do GPT 5.5 mal passa de cinquenta por cento

robot
Geração do resumo em andamento
AIMPACT mensagem, 14 de maio (UTC+8), de acordo com o monitoramento do Beating da Dongcha, a agência de avaliação de IA Vals AI lançou o teste de referência da segunda geração de agentes financeiros (Finance Agent v2). Este é um teste de ponta a ponta que simula o fluxo de trabalho de um analista financeiro iniciante, contendo 927 perguntas revisadas por especialistas. A dificuldade do novo teste aumentou significativamente, com o GPT 5.5 alcançando uma precisão de apenas 51,76%, liderando de forma extremamente apertada contra Claude Opus 4.7 (51,51%) e Claude Sonnet 4.6 (51,03%). Diferente de perguntas de uma única rodada, este teste exige que o modelo procure autonomamente os trechos relevantes em relatórios financeiros de 10-K e 10-Q de várias páginas, lide com ajustes de demonstrações financeiras entre anos e realize cálculos de múltiplas etapas com números intermediários precisos. A Vals AI revelou que, se for adotado um padrão de avaliação rigoroso de "responder corretamente completamente", a precisão de todos os modelos de ponta cairia abaixo de 40%; nas categorias mais difíceis de "modelagem financeira" e "análise de precedentes", a pontuação máxima foi de apenas 23%. Quanto aos outros modelos, Kimi K2.6 ficou em quinto lugar com 44,87%, sendo o modelo doméstico com maior pontuação; seguido por GLM 5.1 (44,79%) e DeepSeek V4 (44,08%). Além disso, a etiqueta de "mais rápido" foi concedida ao Claude Opus 4.7 (tempo por execução de 360 segundos), enquanto a etiqueta de "mais econômico" foi para o GLM 5.1 (custo por execução de 0,62 dólares). A queda coletiva na pontuação deste teste (a geração anterior, Opus 4.7, obteve 64,4%) demonstra um ponto: a IA atual já consegue lidar com buscas simples, mas no profundo setor financeiro, que exige conformidade com práticas específicas da indústria e alta precisão numérica, ainda está longe de substituir analistas humanos. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado