GLM-5.2 là vua của các chuẩn đánh giá.


Nó là mô hình mở trọng số đầu tiên đạt vị trí số 1 trong nhiều hạng mục (và đang vượt qua các mô hình frontier trên toàn bộ bảng xếp hạng).
#1 Chiến thắng:
→ Design Arena: ~1360 Elo, mô hình mở trọng số đầu tiên đạt vị trí số 1, vượt Fable 5 khoảng 10 Elo
→ Terminal-Bench 2.1: 81.0% (lần chạy tốt nhất 82.7%), mô hình mở đầu tiên vượt qua 80%
→ Chỉ số Trí tuệ Phân tích Nhân tạo Phi tập trung v4.1: Mô hình mở trọng số hàng đầu, điểm số 51
→ GDPval-AA v2: Mô hình mở trọng số hàng đầu, cạnh tranh với/gần GPT-5.5
→ LiveBench Agentic Coding: #1–2 toàn diện mở
Xếp hạng Top-3:
→ FrontierSWE (Chiếm ưu thế): #3 toàn diện, 74.4% (gần hòa với Opus 4.8 là 75.1%, vượt GPT-5.5)
→ SWE-bench Pro: #1 trong các mô hình mở, 62.1% (vượt GPT-5.5 là 58.6%)
→ MCP-Atlas (sử dụng công cụ): ~77.0, gần/trong top 3
→ Kỳ thi cuối cùng của Nhân loại (với công cụ): ~54.7, vượt GPT-5.5
→ Bảng xếp hạng BenchLM: #3–4 trong số 124 mô hình
→ Arena Mã/Đại lý (Giao diện người dùng): #2 overall, behind only Fable →PostTrainBench: #2 toàn diện, sau Opus 4.8, vượt GPT-5.5
Hồ sơ cực kỳ ấn tượng.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim