📢 Gate 广场认证创作者招募中,入驻瓜分每月 $20,000 创作大奖!
📌 参与方式
站内创作者: 成功申请“创作者认证徽章”即可自动参与。
新入驻创作者: 需填写入驻表单申请 👉️ https://www.gate.com/questionnaire/7698
🎁 创作者福利
1️⃣ 首帖见面礼: 新入驻/回归创作者发首帖,即得 $50U 奖励!
2️⃣ 周度发帖奖: 完成周发帖任务,轻松瓜分 $10,000 奖池!
3️⃣ 月度创作奖: 赛道更多样,完成月度任务瓜分 $1,600 GT 奖池!
4️⃣ 专属推广任务:进入专属创作者社群,享专属推广任务和节日礼包!
让您的优质内容被更多人看到,携手共建高质量创作者社区!
活动细节:https://www.gate.com/announcements/article/51536
GLM-5.1让开源模型第一次在长时间工程任务上站稳脚跟
开源模型开始在长时间任务上较真了
OpenRouter宣布集成GLM-5.1,把话题从"参数有多大"拉到了"能连续干多久"。GLM-5.1在没人盯着的情况下对向量数据库优化跑了8小时,迭代600多次,性能提升6倍。这改变了开源模型的定位:不再只是便宜替代品,在工程类工作流里可能更能打——特别是Claude Opus 4.6这类闭源模型经常试几下就不再改进了。Hugging Face高层帮着宣传,但推文基本没提算力成本的事。
反应还是老样子,两极分化:
几个值得注意的点:
跑分成绩和实际落地之间的差距
"长时间任务完成率"这个说法引起了争论。Z.ai的演示(比如自己搭Linux桌面)和榜单上GLM-5.1在Terminal-Bench 2.0的63.5%(优化后69%)对不上。营销和实测之间有差距:宣传需要热度,但企业要的是能验证的案例,比如Bella Protocol的信号机器人集成。VentureBeat和Computerworld用"8小时工作日"这个角度把投资者预期抬高了。参数量在"能持续产出"面前变得没那么重要——GLM-5.1在这点上交了卷,但运维成本也更高。
| 立场 | 证据和来源 | 对行业的影响 | 怎么判断 | |---|---|---|---| | 开源乐观派 | Z.ai博文:Vector-DB-Bench上21.5k QPS;Hugging Face CEO背书 | 强化"Agentic AI民主化"的说法,加速对开源权重的投入 | 真正的价值在于给特定行业(比如金融)定制,不是通吃 | | 闭源怀疑派 | SWE-Bench Pro 58.4% vs. Claude 57.3%;Terminal-Bench的差距 | 加深对开源可靠性的担忧,企业从GPT迁移会更慢 | 企业大概会两条腿走路:需要审计代码的场景用GLM | | 企业务实派 | OpenRouter/Vercel集成;Bella Protocol交易机器人上线 | 关注点回到部署成本,RFP倾向MIT许可 | 监管行业自托管AI会加速,云上闭源压力更大 | | 榜单纯粹派 | Hugging Face仓库基准;Artificial Analysis Intelligence Index 51/100 | 用"输出太长、价格太贵($4.40/百万输出token)"泼冷水 | 方向对:押注Serving优化,别追榜 |
这条传播路径——推文到专家转发再到媒体跟进——逼着闭源实验室解释为什么要收那么贵。Anthropic可能会推"更快版本"(比如Claude Opus 4.6 Fast)来应对。市场习惯盯着SOTA看,但低估了地缘因素可能造成的市场分裂。GLM-5.1正在测试中国AI出海策略能走多远。
结论:GLM-5.1把"能连续跑几个小时"变成了工程任务的核心指标,开源在特定工作流里开始成为默认选项。现在花精力做效率优化和混合架构验证的团队,下一阶段会更有优势。
重要性:高
分类:模型发布、行业趋势、开源
判断:对愿意自己搭建和调参的Builder、做基础设施的基金来说,这是早期红利窗口。只追通用对话能力的,相关度不高。现在不动手做长时间任务和Serving优化实验的团队,下一轮企业落地潮会落后。