GLM-5.2 是基準之王。


它是第一個在多個類別中獲得第一名的開放權重模型(並且在各方面都超越前沿模型)。
#1 獲勝:
→ 設計競技場:約1360 Elo,第一個獲得第一名的開放權重模型,超越 Fable 5 約10 Elo
→ Terminal-Bench 2.1:81.0%(最佳表現82.7%),第一個突破80%的開放模型
→ 人工分析智能指數 v4.1:頂尖開放權重模型,得分51
→ GDPval-AA v2:領先的開放權重,與 GPT-5.5 競爭或領先
→ LiveBench Agentic Coding:第1–2名的開放整體
前3名排名:
→ FrontierSWE(優勢):第3名,74.4%(接近 Opus 4.8 的75.1%,超越 GPT-5.5)
→ SWE-bench Pro:開放模型中的第一名,62.1%(超越 GPT-5.5 的58.6%)
→ MCP-Atlas(工具使用):約77.0,接近/排名前3
→ Humanity's Last Exam(含工具):約54.7,超越 GPT-5.5
→ BenchLM 排行榜:124個模型中的第3–4名
→ Code/Agent Arena(前端):#2 overall, behind only Fable →PostTrainBench: #整體第2名,落後於 Opus 4.8,超越 GPT-5.5
令人震驚的履歷。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆