✍️ Gate 广场「创作者认证激励计划」进行中!
我们欢迎优质创作者积极创作,申请认证
赢取豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000+ 丰厚奖励!
立即报名 👉 https://www.gate.com/questionnaire/7159
📕 认证申请步骤:
1️⃣ App 首页底部进入【广场】 → 点击右上角头像进入个人主页
2️⃣ 点击头像右下角【申请认证】进入认证页面,等待审核
让优质内容被更多人看到,一起共建创作者社区!
活动详情:https://www.gate.com/announcements/article/47889
GLM-5.1让开源模型第一次在长时间工程任务上站稳脚跟
开源模型开始在长时间任务上较真了
OpenRouter宣布集成GLM-5.1,把话题从"参数有多大"拉到了"能连续干多久"。GLM-5.1在没人盯着的情况下对向量数据库优化跑了8小时,迭代600多次,性能提升6倍。这改变了开源模型的定位:不再只是便宜替代品,在工程类工作流里可能更能打——特别是Claude Opus 4.6这类闭源模型经常试几下就不再改进了。Hugging Face高层帮着宣传,但推文基本没提算力成本的事。
反应还是老样子,两极分化:
几个值得注意的点:
跑分成绩和实际落地之间的差距
"长时间任务完成率"这个说法引起了争论。Z.ai的演示(比如自己搭Linux桌面)和榜单上GLM-5.1在Terminal-Bench 2.0的63.5%(优化后69%)对不上。营销和实测之间有差距:宣传需要热度,但企业要的是能验证的案例,比如Bella Protocol的信号机器人集成。VentureBeat和Computerworld用"8小时工作日"这个角度把投资者预期抬高了。参数量在"能持续产出"面前变得没那么重要——GLM-5.1在这点上交了卷,但运维成本也更高。
这条传播路径——推文到专家转发再到媒体跟进——逼着闭源实验室解释为什么要收那么贵。Anthropic可能会推"更快版本"(比如Claude Opus 4.6 Fast)来应对。市场习惯盯着SOTA看,但低估了地缘因素可能造成的市场分裂。GLM-5.1正在测试中国AI出海策略能走多远。
结论:GLM-5.1把"能连续跑几个小时"变成了工程任务的核心指标,开源在特定工作流里开始成为默认选项。现在花精力做效率优化和混合架构验证的团队,下一阶段会更有优势。
重要性:高
分类:模型发布、行业趋势、开源
判断:对愿意自己搭建和调参的Builder、做基础设施的基金来说,这是早期红利窗口。只追通用对话能力的,相关度不高。现在不动手做长时间任务和Serving优化实验的团队,下一轮企业落地潮会落后。