GLM-5.2 es el rey de los puntos de referencia.


Es el primer modelo de peso abierto en ocupar el puesto #1 en varias categorías (y está superando a modelos frontera en todos los aspectos).
Ganadores #1:
→ Arena de Diseño: ~1360 Elo, primer modelo de peso abierto en ocupar el puesto #1, supera a Fable 5 por ~10 Elo
→ Terminal-Bench 2.1: 81.0% (mejor resultado 82.7%), primer modelo abierto en superar el 80%
→ Índice de Inteligencia Artificial de Análisis Artificial v4.1: Modelo de peso abierto superior, puntuación 51
→ GDPval-AA v2: Modelo abierto líder, competitivo con/por delante de GPT-5.5
→ LiveBench Codificación Agente: #1–2 en general entre modelos abiertos
Clasificaciones en Top-3:
→ FrontierSWE (Dominancia): #3 en general, 74.4% (cerca de empate con Opus 4.8 con 75.1%, supera a GPT-5.5)
→ SWE-bench Pro: #1 entre modelos abiertos, 62.1% (supera a GPT-5.5 con 58.6%)
→ MCP-Atlas (uso de herramientas): ~77.0, cerca/de entre los 3 mejores
→ Examen Final de la Humanidad (con herramientas): ~54.7, supera a GPT-5.5
→ Tabla de clasificación de BenchLM: #3–4 de 124 modelos
→ Arena de Código/Agente (Frontend): #2 overall, behind only Fable →PostTrainBench: #2 en general, detrás de Opus 4.8, supera a GPT-5.5
Currículum impresionante.
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado