智譜GLM-5.2登頂DeepSWE開源第一:解決44%複雜開發任務,力壓主力閉源模型

robot
摘要生成中
據動察 Beating 監測,智譜 AI 開源模型 GLM-5.2 正式進駐長程軟件工程基準 DeepSWE。在最大思考力度模式下,複雜開發任務的一次成功率達到 44%,在開源模型中排名第一。對比此前入榜的 Kimi K2.7 Code,成功率高出 13 個百分點。

GLM-5.2 解決每項任務的平均成本為 3.92 美元,略高於 Kimi K2.7 Code 的 2.82 美元,成功率卻超越了多款主流閉源模型在特定思考配置下的表現,包括 Claude Sonnet 4.6 [high] (30%)、Gemini 3.5 Flash [medium] (37%),以及 Claude Opus 4.8 [low] (41%)。

評測發起方 Datacurve 設計的 DeepSWE 基準專門測試 AI 智能體解決長任務的能力。測試包含 113 個真實程式設計問題,涵蓋 5 種語言。與只修改單處程式碼的傳統測試不同,DeepSWE 要求 AI 協同修改多個檔案,平均修復程式碼超過 600 行。評測在隔離容器中運行,嚴格限制 CPU 和記憶體資源。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆