GLM-5.2 — король бенчмарков.


Это первая модель с открытым весом, занявшая #1 в нескольких категориях (и она превосходит фронтирные модели по всем показателям).
Победы за #1:
→ Design Arena: ~1360 Эло, первая модель с открытым весом, занявшая #1, превосходит Fable 5 примерно на 10 Эло
→ Terminal-Bench 2.1: 81,0% (лучший результат 82,7%), первая открытая модель, превысившая 80%
→ Artificial Analysis Intelligence Index v4.1: лучшая модель с открытым весом, балл 51
→ GDPval-AA v2: ведущая модель с открытым весом, конкурирует с/опережает GPT-5.5
→ LiveBench Agentic Coding: #1–2 среди открытых моделей в целом
Топ-3 рейтинга:
→ FrontierSWE (Доминирование): #3 в целом, 74,4% (близко к Opus 4.8 с 75,1%, превосходит GPT-5.5)
→ SWE-bench Pro: #1 среди моделей с открытым весом, 62,1% (превзошел GPT-5.5 с 58,6%)
→ MCP-Atlas (использование инструментов): ~77,0, близко к/в топ-3
→ Humanity's Last Exam (с инструментами): ~54,7, превосходит GPT-5.5
→ BenchLM leaderboard: #3–4 из 124 моделей
→ Code/Agent Arena (Frontend): #2 overall, behind only Fable →PostTrainBench: #2 в целом, уступает Opus 4.8, превосходит GPT-5.5
Безумное резюме.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено