GLM-5.2 est le roi du benchmark.


C'est le premier modèle à poids ouvert à prendre la première place dans plusieurs catégories (et il dépasse les modèles de frontier dans tous les domaines).
#1 Victoires :
→ Design Arena : ~1360 Elo, premier modèle à poids ouvert à prendre la première place, bat Fable 5 d'environ 10 Elo
→ Terminal-Bench 2.1 : 81,0 % (meilleure performance 82,7 %), premier modèle ouvert à dépasser 80 %
→ Artificial Analysis Intelligence Index v4.1 : Meilleur modèle à poids ouvert, score 51
→ GDPval-AA v2 : Modèle à poids ouvert leader, compétitif avec/au-dessus de GPT-5.5
→ LiveBench Agentic Coding : #1–2 en général parmi les modèles ouverts
Classements Top-3 :
→ FrontierSWE (Domination) : #3 en général, 74,4 % (presque égal à Opus 4.8 avec 75,1 %, dépasse GPT-5.5)
→ SWE-bench Pro : #1 parmi les modèles ouverts, 62,1 % (dépasse GPT-5.5 avec 58,6 %)
→ MCP-Atlas (utilisation d'outils) : ~77,0, proche/dans le top 3
→ Humanity's Last Exam (avec outils) : ~54,7, dépasse GPT-5.5
→ Classement BenchLM : #3–4 sur 124 modèles
→ Arena Code/Agent (Frontend) : #2 overall, behind only Fable →PostTrainBench: #2 en général, derrière Opus 4.8, dépasse GPT-5.5
CV impressionnant.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé