开源模型在追赶，但追上的到底是什么？

Question

## 开源在追赶，但得说清楚追上了哪里Z.ai 发布 GLM-5.1，Modal 几乎同步上线托管。两件事叠在一起，比单独看哪一个都更有意思。模型是 754B MoE（活跃参数 40B）。SWE-Bench Pro 得分 58.4%，编码任务上和 GPT-5.4、Opus 4.6 差不多；能在自治模式下跑满 8 小时，迭代几千次不崩。BenchLM 目前排第 10，KernelBench 显示比之前的开源方案快 3.6 倍。社交媒体上反应分化：Bindu Reddy 说这是开源追上闭源的证据；Victor Taelin 则怀疑"500+ tokens/s"在 FP8 精度下不现实，真实部署可能只有 200 tps 左右。两边都有道理——模型确实能打，但营销数字偏乐观。这次和以前的开源发布有几点不同：- **Modal 的免费端点改变了可用性和成本的算法。** Z.ai（前身智谱，现在香港上市）通过 Modal 触达西方开发者，开发者不用操心地缘政治摩擦；$1/百万输入 token 的定价也在压低专有服务的价格锚点。- **推理效率的宣传需要语境。** GLM-5.1 用了稀疏混合注意力和异步强化学习来控制扩展成本。但"500+ tps"依赖大多数人没有的基础设施。真正的瓶颈在服务化和调度，不在模型纸面规格。- **可以直接接入现有工具链。** 兼容 Claude Code、OpenClaw，意味着能直接替换进现有的专有工作流。这给 Anthropic 和 OpenAI 带来的压力主要在价格，不是能力被拉平。MarkTechPost 和 Constellation 都把这解读为开源和闭源"6 个月差距"在收敛。在编码代理这个方向上，这个判断大概率成立。Z.ai 用 MIT 许可，二次微调已经在路上了。但不要因此觉得开源全面逆袭了。专有模型在安全对齐和多模态推理上仍然领先不少。正在被侵蚀的是编码代理这个场景的护城河：企业在这类任务上更看重部署成本，对那一点边际能力差异没那么敏感。## 比模型更重要的是基础设施Modal 基于 B200 集群，用 SGLang 部署 GLM-5.1，交互场景下能跑 30–75 tokens/s。这些听起来枯燥的工程细节，才是真正重要的。Z.ai 在 VectorDBBench 上展示了 21.5k QPS 的吞吐（经过 600 次迭代优化）。这种性能需要 Modal 的无服务器弹性扩缩才能稳定交付，光靠模型本身到不了这个量级。这也改变了我们看"模型发布"的方式：它们不再是孤立事件，而是生态策略的一部分。"开源模型 + 西方基础设施"的组合，成了对单一实验室 API 锁定的对冲。关于 GLM-5.1 的边界：编码跑分达到 Opus 的 94.6%，但推理差距还在。更"均衡"的能力画像，对特定用例更有意义。往前看：Z.ai 去年营收同比增长 131%。如果推理成本降到 $0.50/百万 tokens 以下，开源有望在一年内拿下 30–50% 的编码代理部署份额。美国政策变动可能带来扰动，但当前风险看起来不高。| 观点方 | 证据 | 产业影响 | 我的判断 ||---|---|---|---|| 开源乐观派 | SWE-Bench Pro 58.4%，8 小时自治运行 | 企业开始试点开源替代 | 有点夸大。**优势在集成和可用性，不在分数。Modal 的免费试用比榜单排名更重要。** || 专有守护者 | BenchLM 第 10，推理能力仍逊于 Opus | 闭源继续领跑安全与多模态 | **定价错配。** GLM 的效率压缩了对手的定价权，Anthropic 必须回应。 || 基建务实派 | Modal 端点，OpenClaw 兼容 | 资本向无服务器平台集中 | **这才是关键。** 无论哪家模型胜出，基础设施公司都受益。 || 地缘怀疑者 | Z.ai 香港上市、MIT 许可、中美张力 | 模型来源将受更多审视 | 暂时被高估。关注**与西方托管伙伴的变现空间**更实际。 |**结论：** 这次组合拳确认了一件事：在编码代理这个垂直领域，开源的能力已经基本追平。受益的是率先搭建"基础设施无关"架构的 Builder，以及布局托管平台的投资者。Anthropic 面临价格压力。仍然深度绑定闭源 API 的企业，正在为不断缩小的能力差支付溢价。**重要性：** 高  **分类：** 模型发布、合作、开源**判断：** 对编码代理赛道来说，现在仍然是相对早期的窗口。优先受益的是两类人：（1）搭建基础设施无关工作流的 Builder 和集成商；（2）押注无服务器托管和推理平台的资金方。短线交易者除非能抓住定价下调和流量迁移的节奏，否则优势有限；长期持有者需要关注成本曲线是否真的降到 $0.50/百万 tokens 以下，来验证份额能否跃迁。

开源模型在追赶，但追上的到底是什么？

开源在追赶，但得说清楚追上了哪里

比模型更重要的是基础设施

热门话题

Gate13周年Dr.Han公开信

加密市场小幅下跌

原油价格上涨

美军封锁霍尔木兹海峡

AaveDAO2500万美元拨款提案

热门 Gate Fun

BDOG

BDOG

UBI

UBI

G10X

G10

NUC

NUCLEAR

BABI

BABI NGOK

置顶

观点方	证据	产业影响	我的判断
开源乐观派	SWE-Bench Pro 58.4%，8 小时自治运行	企业开始试点开源替代	有点夸大。优势在集成和可用性，不在分数。Modal 的免费试用比榜单排名更重要。
专有守护者	BenchLM 第 10，推理能力仍逊于 Opus	闭源继续领跑安全与多模态	定价错配。 GLM 的效率压缩了对手的定价权，Anthropic 必须回应。
基建务实派	Modal 端点，OpenClaw 兼容	资本向无服务器平台集中	这才是关键。无论哪家模型胜出，基础设施公司都受益。
地缘怀疑者	Z.ai 香港上市、MIT 许可、中美张力	模型来源将受更多审视	暂时被高估。关注与西方托管伙伴的变现空间更实际。