GLM-5.1让开源模型第一次在长时间工程任务上站稳脚跟

robot
摘要生成中

开源模型开始在长时间任务上较真了

OpenRouter宣布集成GLM-5.1,把话题从"参数有多大"拉到了"能连续干多久"。GLM-5.1在没人盯着的情况下对向量数据库优化跑了8小时,迭代600多次,性能提升6倍。这改变了开源模型的定位:不再只是便宜替代品,在工程类工作流里可能更能打——特别是Claude Opus 4.6这类闭源模型经常试几下就不再改进了。Hugging Face高层帮着宣传,但推文基本没提算力成本的事。

反应还是老样子,两极分化:

  • 做产品的人在Twitter上叫好,LMSYS和Ollama强调MIT许可好改好定制;
  • Reddit那边觉得"没独立测评就是吹";
  • Vercel和Together.ai的部署说明生态确实对Agent工具有兴趣;
  • 地缘政治不确定性在涨,有些企业可能会加快自托管开源来躲合规风险。

几个值得注意的点:

  • 闭源API还是更便宜:GLM-5.1有754B参数,推理硬件要求很高,中型公司玩不起。但这也许能催生Serving方面的创新。
  • 榜单好看,推理不稳:SWE-Bench Pro拿了58.4%看着不错,但GPQA Diamond只有86.2%,Gemini是94.3%。"全球第三"这个包装,做通用应用的团队不太会买账。
  • 独立开发者试起来更快了:接入OpenRouter之后实验门槛低了不少,可能会动摇Anthropic在"安全、会用工具的Agent"这块的地位。

跑分成绩和实际落地之间的差距

"长时间任务完成率"这个说法引起了争论。Z.ai的演示(比如自己搭Linux桌面)和榜单上GLM-5.1在Terminal-Bench 2.0的63.5%(优化后69%)对不上。营销和实测之间有差距:宣传需要热度,但企业要的是能验证的案例,比如Bella Protocol的信号机器人集成。VentureBeat和Computerworld用"8小时工作日"这个角度把投资者预期抬高了。参数量在"能持续产出"面前变得没那么重要——GLM-5.1在这点上交了卷,但运维成本也更高。

立场 证据和来源 对行业的影响 怎么判断
开源乐观派 Z.ai博文:Vector-DB-Bench上21.5k QPS;Hugging Face CEO背书 强化"Agentic AI民主化"的说法,加速对开源权重的投入 真正的价值在于给特定行业(比如金融)定制,不是通吃
闭源怀疑派 SWE-Bench Pro 58.4% vs. Claude 57.3%;Terminal-Bench的差距 加深对开源可靠性的担忧,企业从GPT迁移会更慢 企业大概会两条腿走路:需要审计代码的场景用GLM
企业务实派 OpenRouter/Vercel集成;Bella Protocol交易机器人上线 关注点回到部署成本,RFP倾向MIT许可 监管行业自托管AI会加速,云上闭源压力更大
榜单纯粹派 Hugging Face仓库基准;Artificial Analysis Intelligence Index 51/100 用"输出太长、价格太贵($4.40/百万输出token)"泼冷水 方向对:押注Serving优化,别追榜

这条传播路径——推文到专家转发再到媒体跟进——逼着闭源实验室解释为什么要收那么贵。Anthropic可能会推"更快版本"(比如Claude Opus 4.6 Fast)来应对。市场习惯盯着SOTA看,但低估了地缘因素可能造成的市场分裂。GLM-5.1正在测试中国AI出海策略能走多远。

结论:GLM-5.1把"能连续跑几个小时"变成了工程任务的核心指标,开源在特定工作流里开始成为默认选项。现在花精力做效率优化和混合架构验证的团队,下一阶段会更有优势。

重要性:高
分类:模型发布、行业趋势、开源

判断:对愿意自己搭建和调参的Builder、做基础设施的基金来说,这是早期红利窗口。只追通用对话能力的,相关度不高。现在不动手做长时间任务和Serving优化实验的团队,下一轮企业落地潮会落后。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论