PrfaaS essa abordagem é bastante ousada — separar o PD ao máximo, pré-preenchimento independente como serviço, roteamento por limite de comprimento, testes mostram que consegue extrair até 32% a mais de throughput em comparação com abordagens heterogêneas simples, a inovação na camada de infraestrutura começou a ficar mais competitiva

Ver original
MeNews
Face oculta da lua e novo artigo da Tsinghua: pré-preenchimento de LLM pode atravessar centros de dados, throughput do modelo de 1T aumenta 54%
ME News reporta que a face obscura da lua e a Tsinghua apresentaram no arXiv o Prefill-as-a-Service, que executa a fase de pré-preenchimento de inferência de grandes modelos em múltiplos centros de dados. Através de um modelo de atenção híbrida, reduz significativamente a taxa de transferência do cache KV, permitindo que o cache seja transmitido via Ethernet e retornado ao cluster local para decodificação. A arquitetura PrfaaS monta um cluster de pré-preenchimento independente, roteando apenas solicitações de contexto longo não atendidas, enquanto solicitações curtas permanecem no PD local; além disso, introduz roteamento por limite de comprimento e agendamento sensível à largura de banda. Testes com um modelo híbrido de 1T de parâmetros mostraram um aumento de 54% na taxa de transferência em relação ao PD de mesma estrutura, e 32% em relação ao método heterogêneo simples.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado