Face oculta da lua e novo artigo da Tsinghua: pré-preenchimento de LLM pode atravessar centros de dados, throughput do modelo de 1T aumenta 54%

robot
Geração do resumo em andamento
ME News Notícias, 18 de abril (UTC+8), de acordo com o monitoramento do Beating, Moonshot AI e a Universidade de Tsinghua publicaram uma nova tese no arXiv em 16 de abril intitulada "Prefill-as-a-Service", propondo que a fase de pré-preenchimento (prefill) da inferência de grandes modelos seja executada entre centros de dados diferentes. A inferência de grandes modelos ocorre em duas etapas: o prefill lê toda a entrada de uma vez e gera um cache KV; o decode então produz o resultado caractere por caractere com base nesse cache. As características de hardware necessárias para as duas etapas são completamente diferentes, o prefill consome poder de processamento, enquanto o decode consome memória de vídeo e largura de banda. A prática predominante na indústria é separar as duas etapas em máquinas diferentes (divisão PD), mas isso exige que ambas estejam conectadas dentro do mesmo centro de dados via RDMA, pois o cache KV de modelos de atenção intensiva gera dezenas de Gbps por segundo, e se a transmissão for lenta, a GPU fica ociosa. A mudança vem com o novo modelo de atenção híbrida de última geração. Testes na tese mostram que modelos como Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T, entre outros, combinando poucas camadas de atenção completa com muitas camadas lineares, reduziram a taxa de transferência do cache KV em cerca de uma ordem de magnitude, com o Ring-2.5-1T atingindo uma compressão total de 36 vezes. Nesse momento, o cache KV pode ser transferido da rede dedicada RDMA para uma rede Ethernet comum. A implementação do PrfaaS consiste em montar um "cluster de pré-preenchimento" separado, que roteia apenas solicitações de contexto longo e prefixos não encontrados, enquanto solicitações curtas permanecem no cluster PD local; após o pré-preenchimento, o cache KV é enviado de volta ao cluster local via Ethernet para o decode. Além disso, são introduzidos roteamento por limite de comprimento, agendadores sensíveis à largura de banda e pools de cache de prefixo híbrido. A tese realizou uma série de testes usando um modelo híbrido de 1T de parâmetros (baseado na arquitetura Kimi Linear), mostrando que a taxa de serviço geral é 54% maior do que a implantação PD homogênea, e 32% maior do que uma solução heterogênea simples, com cada máquina consumindo uma largura de banda moderada para comunicação entre centros de dados. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 7
  • 2
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
ExitLiquidityPoet
· 1h atrás
Apenas acertos de contexto longo acionam o remoto, solicitações curtas são processadas localmente, essa estratégia de roteamento é muito detalhada
Ver originalResponder0
MetalReliefRoboticArm
· 2h atrás
PD同构 vs 异构 vs PrfaaS,这个对比实验设计得挺干净的
Ver originalResponder0
StopMessingAroundWithGasFees.
· 2h atrás
Modelo de 1T de parâmetros testado na prática, coragem suficiente para rodar um modelo tão grande
Ver originalResponder0
GateUser-4590f4c6
· 2h atrás
Transformar o preenchimento automático em um serviço de venda, será que no futuro não surgirá um preenchimento automático plug-and-play?
Ver originalResponder0
MoonlightDisconnectSwitch
· 2h atrás
Ao ler o documento completo, a principal dúvida é qual é a tolerância de taxa de perda de pacotes durante a implantação real.
Ver originalResponder0
GlassDomeRoaming
· 2h atrás
Agendamento com percepção de largura de banda, em resumo, é pensar em mudanças quando se está sem recursos, se a rede é cara, é preciso planejar com cuidado
Ver originalResponder0
GlassFishTankArbitrage
· 2h atrás
Armazenamento de cache KV via Ethernet, antes achava que era loucura, agora virou artigo acadêmico
Ver originalResponder0
  • Fixado