GLM-5.2 é o rei do benchmark.


É o primeiro modelo de peso aberto a conquistar o #1 em várias categorias (e está superando modelos de fronteira em todos os aspetos).
Vencedores do #1:
→ Arena de Design: ~1360 Elo, primeiro modelo de peso aberto a alcançar o #1, supera o Fable 5 por cerca de 10 Elo
→ Terminal-Bench 2.1: 81,0% (melhor execução 82,7%), primeiro modelo aberto a ultrapassar 80%
→ Índice de Inteligência Artificial de Análise Artificial v4.1: Modelo de peso aberto superior, pontuação 51
→ GDPval-AA v2: Modelo aberto líder, competitivo com/à frente do GPT-5.5
→ LiveBench Agentic Coding: #1–2 geral entre modelos abertos
Classificações Top-3:
→ FrontierSWE (Domínio): #3 geral, 74,4% (quase empate com Opus 4.8 com 75,1%, supera o GPT-5.5)
→ SWE-bench Pro: #1 entre modelos abertos, 62,1% (supera o GPT-5.5 com 58,6%)
→ MCP-Atlas (uso de ferramentas): ~77,0, perto/do top 3
→ Exame Final da Humanidade (com ferramentas): ~54,7, supera o GPT-5.5
→ Classificação do BenchLM: #3–4 de 124 modelos
→ Arena de Código/Agente (Frontend): #2 overall, behind only Fable →PostTrainBench: #2 geral, atrás do Opus 4.8, supera o GPT-5.5
Currículo insano.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado