AA-Briefcase publicado: Claude Fable 5 conquista o campeonato, GLM-5.2 entra no top três

robot
Geração do resumo em andamento
Notícias do CoinWorld, a AA-Briefcase anunciou que o Claude Fable 5 conquistou o primeiro lugar na avaliação, enquanto o GLM-5.2 ficou entre os três primeiros.
A instituição de avaliação Artificial Analysis lançou o primeiro benchmark de avaliação de conhecimento de longo prazo, especialmente projetado para agentes de grandes modelos, abrangendo quatro cenários: ciência de dados, gestão de produtos, operações bancárias e estratégias de indústrias pesadas, desenvolvido por especialistas do setor do Google, McKinsey e Boston Consulting, com 91 tarefas, visando simular fluxos de projetos comerciais reais e complexos.
Os resultados mostraram que o Claude Fable 5 obteve a pontuação geral mais alta, seguido pelo Claude Opus 4.8 e pelo GLM-5.2 em segundo e terceiro lugar.
Embora o Claude Fable 5 tenha apresentado um desempenho forte, sob o padrão rigoroso de acerto total em tarefas individuais, sua taxa de perfeição foi de apenas 3%.
No que diz respeito a modelos de código aberto, o GLM-5.2 da Zhipu destacou-se, com uma pontuação geral apenas 90 pontos abaixo do Claude Opus 4.8, mas com custos de operação inferiores a 25%.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 4
  • 1
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
MempoolMaggie
· 6h atrás
Claude Fable 5 venceu, mas a taxa de perfeição de 3% é bastante frustrante, indicando que tarefas de longo prazo ainda são de dificuldade extrema para a IA.
Ver originalResponder0
SandwichAlertAgent
· 6h atrás
Opus 4.8 a posição do segundo está um pouco constrangedora, caro ainda não é estável, a Anthropic precisa pensar em como contar a história.
Ver originalResponder0
BridgeHopRanger
· 6h atrás
O GLM-5.2 de código aberto está arrasando em custo-benefício, com uma economia de 75% no custo mesmo com uma diferença de 90 pontos na pontuação, as empresas terão que refazer suas contas de compras.
Ver originalResponder0
GlassDomeObservatory
· 6h atrás
91 tarefas cobrem quatro setores, endossadas pelo Google e McKinsey, esse padrão tem valor real na minha opinião.
Ver originalResponder0
  • Fixado