智谱发布GLM-5.1高速API,创下每秒400个词标的全球速度纪录

据东查贝听监测,智谱已为部分企业客户推出GLM-5.1高速API,实现模型输出速度达到400 tokens/s,刷新了大型模型官方接口端到端速度上限的全球纪录。该高速版本在保留原旗舰模型能力的同时,由智谱与TileRT团队共同开发的高性能推理引擎提供算力支持。该引擎彻底重构了GPU的运行调度机制:在编译阶段,将模型静态编排为一个驻留在GPU上的持久Engine Kernel。进行单卡推理时,计算、异步I/O以及通信都会被拆解成以tile为粒度的微任务,内核只需启动一次。算子之间的中间结果通过寄存器与共享缓存直接传递,消除了传统推理中频繁启动内核以及内存读写带来的延迟。扩展到多卡方案时,TileRT还将在8卡NVL拓扑上进一步延展专业化并行的思路:将原本同质化的GPU节点转变为负责不同任务的异构Worker。在处理GLM-5.1的注意力层计算时,系统将GPU 0分配给专门负责稀疏索引构建与路由决策的稀疏索引Worker,而GPU 1到7运行MLA Worker,负责计算密集型阶段。系统将通信完整融入tile级任务流水线,实现计算与跨卡通信的深度重叠。该高速服务目前已在Zhipu MaaS平台向部分企业客户开放。未来,该技术还将进一步优化FP8推理与超长上下文生成环境,为AI编程、实时交互与实时语音等低延迟敏感场景提供更具确定性的性能支持。
ZHIPU26.55%
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论