智谱GLM-5.2 đứng đầu DeepSWE nguồn mở đầu tiên: Giải quyết 44% nhiệm vụ phát triển phức tạp, vượt xa các mô hình đóng mãnh chính

robot
Đang tạo bản tóm tắt
Theo giám sát Beating, mô hình mã nguồn mở AI của Zhipu GLM-5.2 chính thức gia nhập chuẩn phần mềm dài hạn DeepSWE. Trong chế độ tối đa khả năng suy nghĩ, tỷ lệ thành công của các nhiệm vụ phát triển phức tạp đạt 44%, đứng đầu trong các mô hình mã nguồn mở. So với Kimi K2.7 Code đã từng lọt vào danh sách trước đó, tỷ lệ thành công cao hơn 13 điểm phần trăm.

GLM-5.2 có chi phí trung bình cho mỗi nhiệm vụ là 3,92 đô la Mỹ, cao hơn một chút so với Kimi K2.7 Code là 2,82 đô la Mỹ, nhưng tỷ lệ thành công lại vượt qua nhiều mô hình đóng nguồn chính thống trong cấu hình suy nghĩ nhất định, bao gồm Claude Sonnet 4.6 [high] (30%), Gemini 3.5 Flash [medium] (37%), và Claude Opus 4.8 [low] (41%).

Đánh giá do tổ chức phát động Datacurve thiết kế chuẩn DeepSWE nhằm kiểm tra khả năng của AI giải quyết các nhiệm vụ dài hạn. Bài kiểm tra gồm 113 vấn đề lập trình thực tế, bao gồm 5 ngôn ngữ. Khác với phương pháp kiểm tra truyền thống chỉ sửa một chỗ trong mã, DeepSWE yêu cầu AI phối hợp sửa nhiều tệp, trung bình sửa hơn 600 dòng mã. Đánh giá được thực hiện trong container cách ly, giới hạn nghiêm ngặt tài nguyên CPU và bộ nhớ.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim