O lado obscuro da lua lançou esta rodada de pré-preenchimento para rodar em localizações diferentes,


O cache KV pode suportar a rede Ethereum,
A taxa de transferência do modelo de 1T atingiu diretamente um aumento de 54%,
Ajuste de agendamento heterogêneo foi compreendido claramente
Ver original
MeNews
Face oculta da Lua e novo artigo da Tsinghua: pré-preenchimento de LLM pode atravessar centros de dados, aumento de 54% na taxa de processamento de modelos de 1T
ME News 报道,月之暗面与清华在 arXiv 提出 Prefill-as-a-Service,将大模型推理的预填充阶段跨数据中心运行。
A ME News relata que a Face of the Moon e a Tsinghua apresentaram no arXiv o Prefill-as-a-Service, que executa a fase de pré-preenchimento de inferência de grandes modelos entre centros de dados.
Através de modelos de atenção híbridos, reduz significativamente a taxa de transferência do cache KV, permitindo que o cache seja transmitido por Ethernet e retornado ao cluster local para decodificação.
Por meio de modelos de atenção híbridos, reduz significativamente a taxa de transferência do cache KV, permitindo que o cache seja transmitido por Ethernet e retornado ao cluster local para decodificação.
A arquitetura PrfaaS constrói um cluster de pré-preenchimento independente, roteando apenas solicitações de contexto longo não atendidas, enquanto solicitações curtas permanecem no PD local;
A arquitetura PrfaaS monta um cluster de pré-preenchimento independente, roteando apenas solicitações de contexto longo não atendidas, enquanto solicitações curtas permanecem no PD local;
e introduz roteamento por limite de comprimento e agendamento sensível à largura de banda.
e introduz roteamento por limite de comprimento e agendamento sensível à largura de banda.
Testes com modelos híbridos de 1T parâmetros mostram um aumento de 54% na taxa de transferência em relação ao PD homogêneo,
Testes com modelos híbridos de 1T parâmetros mostram um aumento de 54% na taxa de transferência em relação ao PD homogêneo,
e 32% em relação ao heterogêneo simples.
e 32% em relação ao heterogêneo simples.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado