GLM-5.2はベンチマークの王者です。


複数のカテゴリーで1位を獲得した最初のオープンウェイトモデルであり(フロンティアモデルを全体的に上回っています)。
#1獲得:
→ デザインアリーナ:約1360 Elo、最初のオープンウェイトモデルで1位、Fable 5を約10 Elo上回る
→ Terminal-Bench 2.1:81.0%(最高記録82.7%)、80%を超えた最初のオープンモデル
→ 人工分析知能指数v4.1:トップのオープンウェイトモデル、スコア51
→ GDPval-AA v2:主要なオープンウェイト、GPT-5.5と競合またはそれを上回る
→ LiveBench Agentic Coding:全体で1〜2位のオープン
トップ3ランキング:
→ FrontierSWE(支配):全体で3位、74.4%(Opus 4.8の75.1%に接近し、GPT-5.5を上回る)
→ SWE-bench Pro:オープンモデル中1位、62.1%(GPT-5.5の58.6%を上回る)
→ MCP-Atlas(ツール使用):約77.0、トップ3内または近く
→ 人類最後の試験(ツール使用あり):約54.7、GPT-5.5を上回る
→ BenchLMリーダーボード:124モデル中3〜4位
→ コード/エージェントアリーナ(フロントエンド):#2 overall, behind only Fable →PostTrainBench: #2全体、Opus 4.8に次ぎ、GPT-5.5を上回る
狂気の履歴。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め