PrfaaS esta arquitetura é interessante, o contexto longo que não é atendido é roteado para um cluster de pré-preenchimento independente, solicitações curtas são atendidas localmente pelo PD, a alocação sensível à largura de banda evita congestionamentos desnecessários

Ver original
MeNews
Face oculta da lua e nova tese da Tsinghua: pré-preenchimento de LLM pode atravessar centros de dados, throughput do modelo de 1T aumenta 54%
ME News 报道,月之暗面与清华在 arXiv 提出 Prefill-as-a-Service,将大模型推理的预填充阶段跨数据中心运行。
A ME News relata que a Moon Shadow e Tsinghua apresentaram no arXiv o Prefill-as-a-Service, que executa a fase de pré-preenchimento de inferência de grandes modelos entre centros de dados.

通过混合注意力模型显著降低 KV 缓存吞吐,使缓存可经以太网传输并回传本地集群解码。
Ao usar um modelo de atenção híbrido, reduz significativamente a taxa de transferência do cache KV, permitindo que o cache seja transmitido por Ethernet e retornado ao decodificador do cluster local.

PrfaaS 架构组建独立预填充集群,只路由长上下文未命中请求,短请求留本地 PD;并引入长度阈值路由、带宽感知调度。
A arquitetura PrfaaS monta um cluster de pré-preenchimento independente, roteando apenas solicitações de contexto longo não atendidas, enquanto solicitações curtas permanecem no PD local; além disso, introduz roteamento por limite de comprimento e agendamento sensível à largura de banda.

实测 1T 参数混合模型,吞吐比同构 PD 提升 54%,比朴素异构提升 32%。
Testes com um modelo híbrido de 1 trilhão de parâmetros mostraram um aumento de 54% na taxa de transferência em relação ao PD homogêneo, e 32% em relação ao heterogêneo simples.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado