Du papier à la production de kilocalories sur le terrain, cette vitesse ne ressemble pas à celle d'une école.

Voir l'original
CoinNetwork
CoinWorld消息,智谱联合驭驯网络与清华大学提出下一代大模型推理网络架构ZCube,旨在破解大模型PD(预填充-解码)分离部署中日益严峻的结构性网络拥塞难题。ZCube架构已在GLM-5.1 coding千卡线上生产环境落地。该架构通过取消脊柱层交换机,采用全网扁平化拓扑(2跳网络直径),结合单/多轨混合接入机制,实现了跨节点全网交换机之间的流量负载均衡。在基准测试中,ZCube架构相比传统架构减少了33%的交换机与光模块硬件支出,同时GPU平均推理吞吐率提升了15%,首token时延(TTFT)P99分位数下降了40.6%。
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé