Tsinghua + a combinação do lado obscuro da lua é um pouco interessante, jogar o prefill para o centro de dados remoto, as correntes do RDMA finalmente se soltaram

Ver original
MeNews
Face oculta da lua e nova tese da Tsinghua: pré-preenchimento de LLM pode atravessar centros de dados, throughput do modelo de 1T aumenta 54%
ME News Notícias, 18 de abril (UTC+8), de acordo com o monitoramento do Beating, Moonshot AI e a Universidade de Tsinghua publicaram um novo artigo no arXiv em 16 de abril intitulado "Prefill-as-a-Service", propondo que a fase de pré-preenchimento (prefill) para inferência de grandes modelos seja executada entre centros de dados diferentes. A inferência de grandes modelos ocorre em duas etapas: o prefill lê a entrada de uma só vez e gera um cache KV; o decode então produz o resultado caractere por caractere com base nesse cache. As características de hardware necessárias para as duas etapas são completamente diferentes, o prefill consome poder de processamento, enquanto o decode consome memória de vídeo e largura de banda. A prática predominante na indústria é separar as duas etapas em máquinas diferentes (divisão PD), mas isso exige que ambos os lados estejam conectados via RDMA dentro do mesmo centro de dados, pois a comunicação intensa
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado