От статьи до внедрения производства килокалорий — это скорость, которая не похожа на академическую.

Посмотреть Оригинал
CoinNetwork
币界网消息,智谱联合驭驯网络与清华大学提出下一代大模型推理网络架构ZCube,旨在破解大模型PD(预填充-解码)分离部署中日益严峻的结构性网络拥塞难题。ZCube架构已在GLM-5.1 coding千卡线上生产环境落地。该架构通过取消spine层交换机,采用全网扁平化拓扑(2跳网络直径),结合单/多轨混合接入机制,实现了跨节点全网交换机之间的流量负载均衡。在基准测试中,ZCube架构相比传统架构减少了33%的交换机与光模块硬件支出,同时GPU平均推理吞吐率提升了15%,首token时延(TTFT)P99分位数下降了40.6%。
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено