AA-Briefcase publicado: Claude Fable 5 conquista o título, GLM-5.2 entra no pódio

robot
Geração de resumo em curso
Notícias do site CoinWorld, a AA-Briefcase anunciou que Claude Fable 5 conquistou o primeiro lugar na avaliação, enquanto o GLM-5.2 ficou em terceiro.
A instituição de avaliação Artificial Analysis lançou o primeiro benchmark de avaliação de conhecimento de longo prazo, especialmente projetado para agentes de grandes modelos, abrangendo quatro cenários: ciência de dados, gestão de produtos, operações bancárias e estratégias de indústrias pesadas, desenvolvido por especialistas do setor do Google, McKinsey e Boston Consulting, com 91 tarefas, visando simular fluxos de projetos comerciais reais e complexos.
Os resultados mostraram que Claude Fable 5 obteve a pontuação geral mais alta, seguido por Claude Opus 4.8 e GLM-5.2 em segundo e terceiro lugar.
Embora Claude Fable 5 tenha apresentado um desempenho forte, sob o padrão rigoroso de acerto total em tarefas individuais, sua taxa de perfeição foi de apenas 3%.
No que diz respeito a modelos de código aberto, o GLM-5.2 da Zhipu destacou-se, com uma pontuação geral apenas 90 pontos abaixo do Claude Opus 4.8, mas com custos de operação inferiores a 25%.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 4
  • 1
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
MempoolMaggie
· 6h atrás
Claude Fable 5 venceu, mas a taxa de perfeição de 3% é bastante dolorosa, indicando que tarefas de longo prazo ainda são de dificuldade extrema para a IA.
Ver originalResponder0
SandwichAlertAgent
· 6h atrás
Opus 4.8 a posição do segundo é um pouco embaraçosa, caro ainda não é estável, a Anthropic precisa pensar em como contar a história.
Ver originalResponder0
BridgeHopRanger
· 6h atrás
O GLM-5.2 de código aberto está a arrasar em relação à relação custo-benefício, com uma diferença de pontuação de 90 pontos e uma poupança de 75% nos custos, as empresas terão que refazer as contas de compras.
Ver originalResponder0
GlassDomeObservatory
· 6h atrás
91 tarefas cobrem quatro indústrias, endossadas pelo Google e McKinsey, esse padrão tem valor que reconheço.
Ver originalResponder0
  • Fixado