从论文到千卡生产落地,这速度不像学院派

币 界 网
币界网消息,智谱联合驭驯网络与清华大学提出下一代大模型推理网络架构ZCube,旨在破解大模型PD(prefill-decode)分离部署中日益严峻的结构性网络拥塞难题。ZCube架构已在GLM-5.1 coding千卡线上生产环境落地。该架构通过取消spine层交换机,采用全网扁平化拓扑(2跳网络直径),结合单/多轨混合接入机制,实现了跨节点全网交换机之间的流量负载均衡。在基准测试中,ZCube架构相比传统架构减少了33%的交换机与光模块硬件支出,同时GPU平均推理吞吐率提升了15%,首token时延(TTFT)P99分位数下降了40.6%。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论