GLM-5.2 adalah raja tolok ukur.


Ini adalah model bobot terbuka pertama yang menduduki #1 di beberapa kategori (dan mengalahkan model frontier di seluruh bidang).
#1 Menang:
→ Arena Desain: ~1360 Elo, model bobot terbuka pertama yang menduduki #1, mengalahkan Fable 5 sekitar 10 Elo
→ Terminal-Bench 2.1: 81,0% (perjalanan terbaik 82,7%), model terbuka pertama yang melampaui 80%
→ Indeks Kecerdasan Analisis Buatan v4.1: Model bobot terbuka teratas, skor 51
→ GDPval-AA v2: Model terbuka terdepan, kompetitif dengan/lebih unggul dari GPT-5.5
→ LiveBench Agen Coding: #1–2 secara keseluruhan terbuka
Peringkat Top-3:
→ FrontierSWE (Dominasi): #3 secara keseluruhan, 74,4% (hampir seri dengan Opus 4.8 yang 75,1%, mengalahkan GPT-5.5)
→ SWE-bench Pro: #1 di antara model terbuka, 62,1% (mengalahkan GPT-5.5 yang 58,6%)
→ MCP-Atlas (penggunaan alat): ~77,0, dekat/dalam 3 besar
→ Ujian Terakhir Kemanusiaan (dengan alat): ~54,7, mengalahkan GPT-5.5
→ Papan peringkat BenchLM: #3–4 dari 124 model
→ Arena Kode/Agent (Frontend): #2 overall, behind only Fable →PostTrainBench: #2 secara keseluruhan, di belakang Opus 4.8, mengalahkan GPT-5.5
Resume gila.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan