A Lua escura enviou esta rodada de pré-preenchimento para o centro de dados remoto, o cache KV via Ethernet de ida e volta, a melhoria de 54% na taxa de transferência é realmente impressionante, finalmente o contexto longo não precisa mais consumir toda a largura de banda local

Ver original
MeNews
Face oculta da lua e nova tese da Tsinghua: pré-preenchimento de LLM pode atravessar centros de dados, desempenho do modelo de 1T aumenta 54%
ME News relata que a face obscura da lua e a Tsinghua propuseram no arXiv o Prefill-as-a-Service, que executa a fase de pré-preenchimento de inferência de grandes modelos entre centros de dados. Através de um modelo de atenção híbrido, reduz significativamente a taxa de transferência do cache KV, permitindo que o cache seja transmitido por Ethernet e retornado para a decodificação no cluster local. A arquitetura PrfaaS monta um cluster de pré-preenchimento independente, roteando apenas solicitações de contexto longo não atendidas, enquanto solicitações curtas permanecem no PD local; além disso, introduz roteamento por limite de comprimento e agendamento sensível à largura de banda. Testes com um modelo híbrido de 1T de parâmetros mostraram um aumento de 54% na taxa de transferência em relação ao PD homogêneo, e um aumento de 32% em relação ao heterogêneo simples.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado