論文からキロカロリー生産の実現まで、その速度は学者の世界のものではない

原文表示
CoinNetwork
币界网消息,智谱联合驭驯网络与清华大学提出下一代大模型推理网络架构ZCube,旨在破解大模型PD(预填充-解码)分离部署中日益严峻的结构性网络拥塞难题。ZCube架构已在GLM-5.1 coding千卡线上生产环境落地。该架构通过取消spine层交换机,采用全网扁平化拓扑(2跳网络直径),结合单/多轨混合接入机制,实现了跨节点全网交换机之间的流量负载均衡。在基准测试中,ZCube架构相比传统架构减少了33%的交换机与光模块硬件支出,同时GPU平均推理吞吐率提升了15%,首token时延(TTFT)P99分位数下降了40.6%。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め