Face oculta da lua e nova tese da Tsinghua: pré-preenchimento de LLM pode atravessar centros de dados, throughput do modelo de 1T aumenta 54%

robot
Geração de resumo em curso
ME News Notícias, 18 de abril (UTC+8), de acordo com a monitorização do Beating, Moonshot AI e a Universidade de Tsinghua publicaram a 16 de abril no arXiv um novo artigo intitulado «Prefill-as-a-Service», propondo que a fase de pré-preenchimento (prefill) da inferência de grandes modelos seja executada entre centros de dados.
A inferência de grandes modelos divide-se em duas etapas: o prefill lê de uma só vez a entrada e gera um cache KV; o decode depois utiliza esse cache para gerar o resultado palavra por palavra.
As características de hardware necessárias para as duas etapas são completamente diferentes, o prefill consome poder de processamento, enquanto o decode consome memória de vídeo e largura de banda.
A prática predominante na indústria é separar as duas etapas em máquinas diferentes (divisão PD), mas isso exige que ambas estejam conectadas no mesmo centro de dados via RDMA, pois o cache KV de modelos de atenção intensiva gera dezenas de Gbps por segundo, e se a transmissão for lenta, a GPU fica ociosa.
A mudança vem com o novo modelo de atenção híbrida de última geração.
O artigo relata que modelos como Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T, entre outros, combinam algumas camadas completas de atenção com muitas camadas lineares, reduzindo a taxa de transferência do cache KV em aproximadamente uma ordem de grandeza, atingindo uma compressão total de 36 vezes no caso do Ring-2.5-1T.
Assim, o cache KV pode ser transferido da rede RDMA dedicada para uma rede Ethernet comum para upload.
A abordagem específica do PrfaaS consiste em montar um «cluster de pré-preenchimento» independente, que roteia apenas solicitações de contexto longo, prefixos não atendidos e caches de prefixos não encontrados, enquanto solicitações curtas permanecem no cluster PD local; após o pré-preenchimento, o cache KV é enviado de volta ao cluster local via Ethernet para o decode.
Implementa-se também o roteamento por limite de comprimento, um agendador sensível à largura de banda e um pool de cache de prefixos híbrido.
O artigo realizou uma série de testes com um modelo híbrido de 1T de parâmetros interno (baseado na arquitetura Kimi Linear), mostrando que a taxa de serviço geral é 54% maior do que uma implantação PD idêntica, e 32% maior do que uma solução heterogênea simples, usando apenas uma largura de banda moderada entre centros de dados.
(Origem: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 7
  • 2
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
ExitLiquidityPoet
· 2h atrás
Apenas aciona o remoto quando o contexto longo não é atendido, solicitações curtas são processadas localmente, essa estratégia de roteamento é muito detalhada
Ver originalResponder0
MetalReliefRoboticArm
· 3h atrás
PD homófico vs heterogéneo vs PrfaaS, este experimento de comparação está bastante bem elaborado
Ver originalResponder0
StopMessingAroundWithGasFees.
· 3h atrás
Modelo de 1T de parâmetros testado na prática, ter coragem de usar um modelo tão grande, demonstra bastante confiança
Ver originalResponder0
GateUser-4590f4c6
· 3h atrás
Vender o preenchimento automático como um serviço, será que no futuro não surgirá um preenchimento automático plug-and-play?
Ver originalResponder0
MoonlightDisconnectSwitch
· 4h atrás
Depois de ler toda a peça, o que mais quero saber é qual é a tolerância de taxa de perda de pacotes na implementação real.
Ver originalResponder0
GlassDomeRoaming
· 4h atrás
Agendamento com consciência de largura de banda, em suma, é pensar em mudanças quando se está sem recursos, e quando a rede é cara, é preciso planejar cuidadosamente.
Ver originalResponder0
GlassFishTankArbitrage
· 4h atrás
O armazenamento de cache KV transmitido por Ethernet, antes achava que era loucura, agora virou artigo de pesquisa
Ver originalResponder0
  • Fixado