GLM-5.2 é o rei do benchmark.


É o primeiro modelo de peso aberto a conquistar o #1 em várias categorias (e está superando modelos de fronteira em todos os aspectos).
Vencedores do #1:
→ Arena de Design: ~1360 Elo, primeiro modelo de peso aberto a conquistar o #1, supera Fable 5 por ~10 Elo
→ Terminal-Bench 2.1: 81,0% (melhor desempenho de 82,7%), primeiro modelo aberto a ultrapassar 80%
→ Índice de Inteligência Artificial de Análise Artificial v4.1: Modelo de peso aberto superior, pontuação 51
→ GDPval-AA v2: Modelo de peso aberto líder, competitivo com/o GPT-5.5
→ LiveBench Agentic Coding: #1–2 geral entre modelos abertos
Classificações Top-3:
→ FrontierSWE (Domínio): #3 geral, 74,4% (quase empate com Opus 4.8, 75,1%, supera GPT-5.5)
→ SWE-bench Pro: #1 entre modelos abertos, 62,1% (supera GPT-5.5, 58,6%)
→ MCP-Atlas (uso de ferramentas): ~77,0, perto/dentro do top 3
→ Exame Final da Humanidade (com ferramentas): ~54,7, supera GPT-5.5
→ Classificação do BenchLM: #3–4 de 124 modelos
→ Arena de Código/Agente (Frontend): #2 overall, behind only Fable →PostTrainBench: #2 geral, atrás de Opus 4.8, supera GPT-5.5
Currículo insano.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado