✍️ Gate 广场「创作者认证激励计划」进行中!
我们欢迎优质创作者积极创作,申请认证
赢取豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000+ 丰厚奖励!
立即报名 👉 https://www.gate.com/questionnaire/7159
📕 认证申请步骤:
1️⃣ App 首页底部进入【广场】 → 点击右上角头像进入个人主页
2️⃣ 点击头像右下角【申请认证】进入认证页面,等待审核
让优质内容被更多人看到,一起共建创作者社区!
活动详情:https://www.gate.com/announcements/article/47889
开源模型在追赶,但追上的到底是什么?
开源在追赶,但得说清楚追上了哪里
Z.ai 发布 GLM-5.1,Modal 几乎同步上线托管。两件事叠在一起,比单独看哪一个都更有意思。
模型是 754B MoE(活跃参数 40B)。SWE-Bench Pro 得分 58.4%,编码任务上和 GPT-5.4、Opus 4.6 差不多;能在自治模式下跑满 8 小时,迭代几千次不崩。BenchLM 目前排第 10,KernelBench 显示比之前的开源方案快 3.6 倍。
社交媒体上反应分化:Bindu Reddy 说这是开源追上闭源的证据;Victor Taelin 则怀疑"500+ tokens/s"在 FP8 精度下不现实,真实部署可能只有 200 tps 左右。两边都有道理——模型确实能打,但营销数字偏乐观。
这次和以前的开源发布有几点不同:
MarkTechPost 和 Constellation 都把这解读为开源和闭源"6 个月差距"在收敛。在编码代理这个方向上,这个判断大概率成立。Z.ai 用 MIT 许可,二次微调已经在路上了。
但不要因此觉得开源全面逆袭了。专有模型在安全对齐和多模态推理上仍然领先不少。正在被侵蚀的是编码代理这个场景的护城河:企业在这类任务上更看重部署成本,对那一点边际能力差异没那么敏感。
比模型更重要的是基础设施
Modal 基于 B200 集群,用 SGLang 部署 GLM-5.1,交互场景下能跑 30–75 tokens/s。这些听起来枯燥的工程细节,才是真正重要的。
Z.ai 在 VectorDBBench 上展示了 21.5k QPS 的吞吐(经过 600 次迭代优化)。这种性能需要 Modal 的无服务器弹性扩缩才能稳定交付,光靠模型本身到不了这个量级。
这也改变了我们看"模型发布"的方式:它们不再是孤立事件,而是生态策略的一部分。"开源模型 + 西方基础设施"的组合,成了对单一实验室 API 锁定的对冲。
关于 GLM-5.1 的边界:编码跑分达到 Opus 的 94.6%,但推理差距还在。更"均衡"的能力画像,对特定用例更有意义。
往前看:Z.ai 去年营收同比增长 131%。如果推理成本降到 $0.50/百万 tokens 以下,开源有望在一年内拿下 30–50% 的编码代理部署份额。美国政策变动可能带来扰动,但当前风险看起来不高。
结论: 这次组合拳确认了一件事:在编码代理这个垂直领域,开源的能力已经基本追平。受益的是率先搭建"基础设施无关"架构的 Builder,以及布局托管平台的投资者。Anthropic 面临价格压力。仍然深度绑定闭源 API 的企业,正在为不断缩小的能力差支付溢价。
重要性: 高
分类: 模型发布、合作、开源
判断: 对编码代理赛道来说,现在仍然是相对早期的窗口。优先受益的是两类人:(1)搭建基础设施无关工作流的 Builder 和集成商;(2)押注无服务器托管和推理平台的资金方。短线交易者除非能抓住定价下调和流量迁移的节奏,否则优势有限;长期持有者需要关注成本曲线是否真的降到 $0.50/百万 tokens 以下,来验证份额能否跃迁。