Da pesquisa acadêmica à produção de calorias na prática, essa velocidade não parece de academia

Ver original
CoinNetwork
Notícias do Coinjie.com, a Zhipu em parceria com a Yuxun Network e a Universidade Tsinghua propôs a arquitetura de rede de inferência de próxima geração para grandes modelos, ZCube, com o objetivo de resolver o problema cada vez mais severo de congestionamento estrutural na implantação separada de PD (pré-preenchimento e decodificação) de grandes modelos.
A arquitetura ZCube já foi implementada no ambiente de produção online do GLM-5.1 coding, com uma rede de 2 saltos e topologia plana de rede, eliminando switches na camada spine, combinando mecanismos de acesso híbrido de uma/múltiplas trilhas, alcançando equilíbrio de carga de tráfego entre switches de rede entre nós.
Nos testes de referência, a arquitetura ZCube reduziu em 33% os custos de hardware de switches e módulos ópticos em comparação com arquiteturas tradicionais, enquanto a taxa média de inferência de GPU aumentou em 15%, e o tempo de latência do primeiro token (TTFT) no percentil P99 caiu 40,6%.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado