Do artigo à produção de quilocalorias em prática, essa velocidade não parece de academia

Ver original
CoinNetwork
Notícias do Coinjie.com, a Zhipu, em colaboração com a Yuxun Network e a Universidade Tsinghua, propuseram a arquitetura de rede de inferência de próxima geração para grandes modelos, ZCube, com o objetivo de resolver o problema cada vez mais grave de congestionamento estrutural na implantação separada de PD (pré-preenchimento e decodificação) de grandes modelos.
A arquitetura ZCube já foi implementada no ambiente de produção online do GLM-5.1 coding, com uma rede de 2 saltos.
Ao eliminar o switch da camada spine, adotando uma topologia de rede plana (diâmetro de rede de 2 saltos), combinada com um mecanismo de acesso híbrido de uma/múltiplas trilhas, ela realiza o balanceamento de carga de tráfego entre switches de rede entre nós.
Nos testes de referência, a arquitetura ZCube reduziu em 33% os custos de hardware de switches e módulos ópticos em comparação com arquiteturas tradicionais, enquanto a taxa média de inferência de GPU aumentou em 15%, e o tempo de latência do primeiro token (TTFT) no percentil P99 caiu 40,6%.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado