GLM-5.2 — король бенчмарків.


Це перша модель з відкритою вагою, яка посіла #1 у кількох категоріях (і вона перевершує фронтір-моделі у всіх сферах).
Перемоги за #1:
→ Design Arena: ~1360 Elo, перша модель з відкритою вагою, яка посіла #1, перевершує Fable 5 приблизно на 10 Elo
→ Terminal-Bench 2.1: 81,0% (кращий результат 82,7%), перша відкрита модель, яка перейшла 80%
→ Artificial Analysis Intelligence Index v4.1: провідна модель з відкритою вагою, бал 51
→ GDPval-AA v2: провідна модель з відкритою вагою, конкурентна з/перед GPT-5.5
→ LiveBench Agentic Coding: #1–2 серед відкритих моделей загалом
Топ-3 рейтинги:
→ FrontierSWE (Домінування): #3 загалом, 74,4% (майже рівно з Opus 4.8, 75,1%, перевершує GPT-5.5)
→ SWE-bench Pro: #1 серед відкритих моделей, 62,1% (перевершує GPT-5.5, 58,6%)
→ MCP-Atlas (використання інструментів): ~77,0, близько/у топ-3
→ Humanity's Last Exam (з інструментами): ~54,7, перевершує GPT-5.5
→ BenchLM leaderboard: #3–4 з 124 моделей
→ Code/Agent Arena (Frontend): #2 overall, behind only Fable →PostTrainBench: #2 загалом, поступається Opus 4.8, перевершує GPT-5.5
Неймовірне резюме.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено