オープンソースモデルは追いついているが、追いついているのは一体何なのか?

robot
概要作成中

オープンソースは追いついている。でも、どこまで追いついたのかをはっきりさせよう

Z.ai が GLM-5.1 を公開し、Modal はほぼ同時にホスティングを開始した。2つが重なっているからこそ、どちらか単体で見るよりずっと面白い。

モデルは 754B MoE(アクティブ・パラメータ 40B)。SWE-Bench Pro のスコアは 58.4%。コーディングタスクでは GPT-5.4 や Opus 4.6 とほぼ同等。自律モードで 8 時間フル稼働して、数千回の反復でもクラッシュしない。BenchLM は現在 10 位、KernelBench はそれまでのオープンソース案より 3.6 倍速いことを示している。

ソーシャルメディアの反応は割れている。Bindu Reddy は「これはオープンソースがクローズドに追いついた証拠だ」と言う。一方 Victor Taelin は「“500+ tokens/s” は FP8 精度では現実的ではない。実際の導入なら 200 tps 程度がせいぜいだろう」と疑う。両方に一理ある——モデル自体は確かに強いが、マーケティングの数値はやや楽観的だ。

今回のオープンソース公開は、これまでと比べていくつか違う点がある:

  • Modal の無料エンドポイントが、利用可能性とコストのアルゴリズムを変えた。 Z.ai(旧・智谱、現在は香港上場)は Modal を通じて西側の開発者に到達し、開発者は地政学的な摩擦を気にする必要がない。さらに $1/百万入力 token の価格設定も、専有サービスの価格アンカーを引き下げている。
  • 推論効率の宣伝には文脈が必要。 GLM-5.1 はスパース混合注意と非同期強化学習を使って拡張コストを抑えている。しかし「500+ tps」は、多くの人が持っていない基盤インフラに依存している。本当のボトルネックはサービス化とスケジューリングであり、モデルの紙面スペックではない。
  • 既存のツールチェーンにそのまま接続できる。 Claude Code、OpenClaw と互換であるため、既存の専有ワークフローに直接置き換えて組み込める。これが Anthropic と OpenAI に与える圧力は、主に価格であって、能力が横並びになるわけではない。

MarkTechPost と Constellation は、この解釈を「オープンソースとクローズドの“6 か月差”が収束している」としている。コーディングエージェントという方向性では、この判断はたぶん成り立つ。Z.ai は MIT ライセンスを採用しており、追加の微調整(セカンダリ・ファインチューニング)も進行中だ。

ただし、これでオープンソースが全面的に逆転したと思わない方がいい。専有モデルは安全アラインメントやマルチモーダル推論で、依然としてかなりリードしている。侵食されているのは、コードエージェントというシーンにおける防波堤だ。企業はこうしたタスクで導入コストをより重視しており、その一点の限界的な能力差にはそれほど敏感ではない。

モデルより重要なのは基盤インフラ

Modal は B200 クラスターをベースにしており、SGLang で GLM-5.1 をデプロイすることで、インタラクティブな場面では 30–75 tokens/s を実現できる。こうした退屈に見えるエンジニアリングの細部こそが、本当に重要なのだ。

Z.ai は VectorDBBench で 21.5k QPS のスループットを示した(600 回の反復最適化を経たもの)。この性能は、Modal のサーバレスな弾力的なスケールによって安定して提供できるもので、モデル本体だけではこの桁に届かない。

これにより、私たちが「モデルの公開」を見る方法も変わる。モデルは孤立したイベントではなく、生態系戦略の一部になる。「オープンソースのモデル + 西側の基盤インフラ」という組み合わせは、単一ラボの API にロックされることへのヘッジになっている。

GLM-5.1 の限界についても:コーディングのベンチマークでは Opus の 94.6% に到達したが、推論の差はまだ残っている。より「バランスの取れた」能力プロファイルは、特定のユースケースにとってより意味がある。

先を見よう:Z.ai の昨年の売上は前年比で 131% 増。推論コストが $0.50/百万 tokens 未満まで下がれば、オープンソースは 1 年以内にコーディングエージェントの導入シェアの 30–50% を取りに行ける可能性がある。米国の政策変更によって攪乱が起きるかもしれないが、現時点のリスクは高くなさそうだ。

观点方 证据 产业影响 我的判断
开源乐观派 SWE-Bench Pro 58.4%,8 小时自治运行 企业开始试点开源替代 ちょっと誇張。優位性は統合と利用可能性にあり、スコアではない。Modal の無料トライアルの方が、ランキング上の順位より重要だ。
专有守护者 BenchLM 第 10,推理能力仍逊于 Opus 闭源继续领跑安全与多模态 価格のミスマッチ。 GLM の効率が、対抗相手の価格決定力を圧縮しているため、Anthropic は対応せざるを得ない。
基建务实派 Modal 端点,OpenClaw 兼容 资本向无服务器平台集中 これが鍵。 どのモデルが勝とうが、基盤インフラ企業は恩恵を受ける。
地缘怀疑者 Z.ai 香港上市、MIT 许可、中美张力 模型来源将受更多审视 一時的に過大評価。より現実的なのは、西側のホスティング・パートナーとともに収益化できる余地を注視することだ。

結論: 今回のコンビネーションは、ひとつの事実を裏付けた。コーディングエージェントという縦型領域では、オープンソースの能力はすでにほぼ追いついている。恩恵を受けるのは、まず「基盤インフラに依存しない」アーキテクチャを先に組んだ Builder、そしてホスティング基盤を用意する投資家だ。Anthropic は価格面での圧力に直面する。依然として深くクローズド API に結びついている企業は、縮まり続ける能力差に対してプレミアム(上乗せ支払い)を払い続けている。

重要性:
分類: モデル発表、提携、オープンソース

判断: コーディングエージェントのレースに関しては、今でも相対的に早い段階の窓口だ。短期的に恩恵を受けやすいのは、次の2タイプ:(1)基盤インフラに依存しないワークフローを組み立てる Builder とインテグレーター、(2)サーバレスのホスティングと推論プラットフォームに賭ける資金提供者。短期トレーダーは、価格の引き下げとトラフィック移行のタイミングを掴める場合を除き、優位性は限られる。一方で長期保有者は、コスト曲線が本当に $0.50/百万 tokens 未満まで下がるかを確認して、シェアが飛躍できるかを検証する必要がある。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン