動察 Beating 監測によると、智谱 AI オープンソースモデル GLM-5.2 は正式に長期ソフトウェアエンジニアリング基準 DeepSWE に参加しました。最大思考力度モード下で、複雑な開発タスクの成功率は44%に達し、オープンソースモデルの中でトップの成績です。以前のランキング入りした Kimi K2.7 Code と比較して、成功率は13ポイント高いです。
GLM-5.2 の各タスクの平均コストは3.92ドルで、Kimi K2.7 Code の2.82ドルよりやや高いですが、成功率は Claude Sonnet 4.6 [high] (30%)、Gemini 3.5 Flash [medium] (37%)、Claude Opus 4.8 [low] (41%) などの主流のクローズドソースモデルの特定の思考設定におけるパフォーマンスを上回っています。
評価発起人の Datacurve が設計した DeepSWE 基準は、AI インテリジェントが長期タスクを解決する能力を特にテストします。テストは113の実際のプログラミング問題を含み、5つの言語をカバーしています。従来の単一箇所のコード修正を行うテストとは異なり、DeepSWE では AI が複数のファイルを協調して修正し、平均修正コードは600行を超えます。評価は隔離されたコンテナ内で実行され、CPUとメモリ資源は厳格に制限されています。
1.04M 人気度
20.38M 人気度
60.69K 人気度
920.3K 人気度
2.07M 人気度
智谱GLM-5.2がDeepSWEオープンソースの第一位に登頂:44%の複雑な開発タスクを解決し、主要なクローズドソースモデルを凌駕
動察 Beating 監測によると、智谱 AI オープンソースモデル GLM-5.2 は正式に長期ソフトウェアエンジニアリング基準 DeepSWE に参加しました。最大思考力度モード下で、複雑な開発タスクの成功率は44%に達し、オープンソースモデルの中でトップの成績です。以前のランキング入りした Kimi K2.7 Code と比較して、成功率は13ポイント高いです。
GLM-5.2 の各タスクの平均コストは3.92ドルで、Kimi K2.7 Code の2.82ドルよりやや高いですが、成功率は Claude Sonnet 4.6 [high] (30%)、Gemini 3.5 Flash [medium] (37%)、Claude Opus 4.8 [low] (41%) などの主流のクローズドソースモデルの特定の思考設定におけるパフォーマンスを上回っています。
評価発起人の Datacurve が設計した DeepSWE 基準は、AI インテリジェントが長期タスクを解決する能力を特にテストします。テストは113の実際のプログラミング問題を含み、5つの言語をカバーしています。従来の単一箇所のコード修正を行うテストとは異なり、DeepSWE では AI が複数のファイルを協調して修正し、平均修正コードは600行を超えます。評価は隔離されたコンテナ内で実行され、CPUとメモリ資源は厳格に制限されています。