Tsinghua + a face obscura da lua, esta combinação é interessante, enviar o prefill para o centro de dados remoto, as correntes do RDMA finalmente se soltaram

Ver original
MeNews
Face oculta da lua e nova tese da Tsinghua: pré-preenchimento de LLM pode atravessar centros de dados, throughput do modelo de 1T aumenta 54%
ME News Notícias, 18 de abril (UTC+8), de acordo com a monitorização do Beating, Moonshot AI e a Universidade de Tsinghua publicaram uma nova tese no arXiv em 16 de abril intitulada «Prefill-as-a-Service», propondo que a fase de pré-preenchimento (prefill) para raciocínio de grandes modelos seja executada entre centros de dados diferentes.
O raciocínio de grandes modelos ocorre em duas etapas: o prefill lê toda a entrada de uma só vez e gera um cache KV; o decode então produz o resultado caractere por caractere com base nesse cache.
As características de hardware necessárias para as duas etapas são completamente diferentes, o prefill consome poder de processamento, enquanto o decode consome memória de vídeo e largura de banda.
A prática predominante na indústria é separar as duas etapas em máquinas diferentes (divisão PD), mas isso exige que ambas as partes estejam conectadas dentro do mesmo centro de dados usando RDMA, devido à alta densidade
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado