Z.ai が GLM-5.1 を公開し、Modal はほぼ同時にホスティングを開始した。2つが重なっているからこそ、どちらか単体で見るよりずっと面白い。
モデルは 754B MoE(アクティブ・パラメータ 40B)。SWE-Bench Pro のスコアは 58.4%。コーディングタスクでは GPT-5.4 や Opus 4.6 とほぼ同等。自律モードで 8 時間フル稼働して、数千回の反復でもクラッシュしない。BenchLM は現在 10 位、KernelBench はそれまでのオープンソース案より 3.6 倍速いことを示している。
ソーシャルメディアの反応は割れている。Bindu Reddy は「これはオープンソースがクローズドに追いついた証拠だ」と言う。一方 Victor Taelin は「“500+ tokens/s” は FP8 精度では現実的ではない。実際の導入なら 200 tps 程度がせいぜいだろう」と疑う。両方に一理ある——モデル自体は確かに強いが、マーケティングの数値はやや楽観的だ。
今回のオープンソース公開は、これまでと比べていくつか違う点がある:
MarkTechPost と Constellation は、この解釈を「オープンソースとクローズドの“6 か月差”が収束している」としている。コーディングエージェントという方向性では、この判断はたぶん成り立つ。Z.ai は MIT ライセンスを採用しており、追加の微調整(セカンダリ・ファインチューニング)も進行中だ。
ただし、これでオープンソースが全面的に逆転したと思わない方がいい。専有モデルは安全アラインメントやマルチモーダル推論で、依然としてかなりリードしている。侵食されているのは、コードエージェントというシーンにおける防波堤だ。企業はこうしたタスクで導入コストをより重視しており、その一点の限界的な能力差にはそれほど敏感ではない。
Modal は B200 クラスターをベースにしており、SGLang で GLM-5.1 をデプロイすることで、インタラクティブな場面では 30–75 tokens/s を実現できる。こうした退屈に見えるエンジニアリングの細部こそが、本当に重要なのだ。
Z.ai は VectorDBBench で 21.5k QPS のスループットを示した(600 回の反復最適化を経たもの)。この性能は、Modal のサーバレスな弾力的なスケールによって安定して提供できるもので、モデル本体だけではこの桁に届かない。
これにより、私たちが「モデルの公開」を見る方法も変わる。モデルは孤立したイベントではなく、生態系戦略の一部になる。「オープンソースのモデル + 西側の基盤インフラ」という組み合わせは、単一ラボの API にロックされることへのヘッジになっている。
GLM-5.1 の限界についても:コーディングのベンチマークでは Opus の 94.6% に到達したが、推論の差はまだ残っている。より「バランスの取れた」能力プロファイルは、特定のユースケースにとってより意味がある。
先を見よう:Z.ai の昨年の売上は前年比で 131% 増。推論コストが $0.50/百万 tokens 未満まで下がれば、オープンソースは 1 年以内にコーディングエージェントの導入シェアの 30–50% を取りに行ける可能性がある。米国の政策変更によって攪乱が起きるかもしれないが、現時点のリスクは高くなさそうだ。
結論: 今回のコンビネーションは、ひとつの事実を裏付けた。コーディングエージェントという縦型領域では、オープンソースの能力はすでにほぼ追いついている。恩恵を受けるのは、まず「基盤インフラに依存しない」アーキテクチャを先に組んだ Builder、そしてホスティング基盤を用意する投資家だ。Anthropic は価格面での圧力に直面する。依然として深くクローズド API に結びついている企業は、縮まり続ける能力差に対してプレミアム(上乗せ支払い)を払い続けている。
重要性: 高 分類: モデル発表、提携、オープンソース
判断: コーディングエージェントのレースに関しては、今でも相対的に早い段階の窓口だ。短期的に恩恵を受けやすいのは、次の2タイプ:(1)基盤インフラに依存しないワークフローを組み立てる Builder とインテグレーター、(2)サーバレスのホスティングと推論プラットフォームに賭ける資金提供者。短期トレーダーは、価格の引き下げとトラフィック移行のタイミングを掴める場合を除き、優位性は限られる。一方で長期保有者は、コスト曲線が本当に $0.50/百万 tokens 未満まで下がるかを確認して、シェアが飛躍できるかを検証する必要がある。
156.41K 人気度
475.2K 人気度
26.79K 人気度
545.61K 人気度
544.36K 人気度
オープンソースモデルは追いついているが、追いついているのは一体何なのか?
オープンソースは追いついている。でも、どこまで追いついたのかをはっきりさせよう
Z.ai が GLM-5.1 を公開し、Modal はほぼ同時にホスティングを開始した。2つが重なっているからこそ、どちらか単体で見るよりずっと面白い。
モデルは 754B MoE(アクティブ・パラメータ 40B)。SWE-Bench Pro のスコアは 58.4%。コーディングタスクでは GPT-5.4 や Opus 4.6 とほぼ同等。自律モードで 8 時間フル稼働して、数千回の反復でもクラッシュしない。BenchLM は現在 10 位、KernelBench はそれまでのオープンソース案より 3.6 倍速いことを示している。
ソーシャルメディアの反応は割れている。Bindu Reddy は「これはオープンソースがクローズドに追いついた証拠だ」と言う。一方 Victor Taelin は「“500+ tokens/s” は FP8 精度では現実的ではない。実際の導入なら 200 tps 程度がせいぜいだろう」と疑う。両方に一理ある——モデル自体は確かに強いが、マーケティングの数値はやや楽観的だ。
今回のオープンソース公開は、これまでと比べていくつか違う点がある:
MarkTechPost と Constellation は、この解釈を「オープンソースとクローズドの“6 か月差”が収束している」としている。コーディングエージェントという方向性では、この判断はたぶん成り立つ。Z.ai は MIT ライセンスを採用しており、追加の微調整(セカンダリ・ファインチューニング)も進行中だ。
ただし、これでオープンソースが全面的に逆転したと思わない方がいい。専有モデルは安全アラインメントやマルチモーダル推論で、依然としてかなりリードしている。侵食されているのは、コードエージェントというシーンにおける防波堤だ。企業はこうしたタスクで導入コストをより重視しており、その一点の限界的な能力差にはそれほど敏感ではない。
モデルより重要なのは基盤インフラ
Modal は B200 クラスターをベースにしており、SGLang で GLM-5.1 をデプロイすることで、インタラクティブな場面では 30–75 tokens/s を実現できる。こうした退屈に見えるエンジニアリングの細部こそが、本当に重要なのだ。
Z.ai は VectorDBBench で 21.5k QPS のスループットを示した(600 回の反復最適化を経たもの)。この性能は、Modal のサーバレスな弾力的なスケールによって安定して提供できるもので、モデル本体だけではこの桁に届かない。
これにより、私たちが「モデルの公開」を見る方法も変わる。モデルは孤立したイベントではなく、生態系戦略の一部になる。「オープンソースのモデル + 西側の基盤インフラ」という組み合わせは、単一ラボの API にロックされることへのヘッジになっている。
GLM-5.1 の限界についても:コーディングのベンチマークでは Opus の 94.6% に到達したが、推論の差はまだ残っている。より「バランスの取れた」能力プロファイルは、特定のユースケースにとってより意味がある。
先を見よう:Z.ai の昨年の売上は前年比で 131% 増。推論コストが $0.50/百万 tokens 未満まで下がれば、オープンソースは 1 年以内にコーディングエージェントの導入シェアの 30–50% を取りに行ける可能性がある。米国の政策変更によって攪乱が起きるかもしれないが、現時点のリスクは高くなさそうだ。
結論: 今回のコンビネーションは、ひとつの事実を裏付けた。コーディングエージェントという縦型領域では、オープンソースの能力はすでにほぼ追いついている。恩恵を受けるのは、まず「基盤インフラに依存しない」アーキテクチャを先に組んだ Builder、そしてホスティング基盤を用意する投資家だ。Anthropic は価格面での圧力に直面する。依然として深くクローズド API に結びついている企業は、縮まり続ける能力差に対してプレミアム(上乗せ支払い)を払い続けている。
重要性: 高
分類: モデル発表、提携、オープンソース
判断: コーディングエージェントのレースに関しては、今でも相対的に早い段階の窓口だ。短期的に恩恵を受けやすいのは、次の2タイプ:(1)基盤インフラに依存しないワークフローを組み立てる Builder とインテグレーター、(2)サーバレスのホスティングと推論プラットフォームに賭ける資金提供者。短期トレーダーは、価格の引き下げとトラフィック移行のタイミングを掴める場合を除き、優位性は限られる。一方で長期保有者は、コスト曲線が本当に $0.50/百万 tokens 未満まで下がるかを確認して、シェアが飛躍できるかを検証する必要がある。