Face oculta da Lua e novo artigo da Tsinghua: pré-preenchimento de LLM pode atravessar centros de dados, aumento de 54% na taxa de processamento de modelos de 1T

robot
Geração de resumo em curso
ME News Notícias, 18 de abril (UTC+8), de acordo com a monitorização do Beating, Moonshot AI e a Universidade de Tsinghua publicaram uma nova tese no arXiv a 16 de abril intitulada «Prefill-as-a-Service», propondo que a fase de pré-preenchimento (prefill) da inferência de grandes modelos seja executada entre centros de dados. A inferência de grandes modelos ocorre em duas etapas: o prefill lê de uma só vez a entrada e gera um cache KV; o decode então produz o resultado caractere por caractere com base nesse cache. As características de hardware necessárias para as duas etapas são completamente diferentes, o prefill consome poder de processamento, enquanto o decode consome memória de vídeo e largura de banda. A prática predominante na indústria é separar as duas etapas em máquinas diferentes (divisão PD), mas isso exige que ambas estejam conectadas via RDMA no mesmo centro de dados, pois o cache KV de modelos de atenção intensiva gera dezenas de Gbps por segundo, e se a transmissão for lenta, a GPU fica ociosa. A mudança vem com o novo modelo de atenção híbrida de última geração. Testes na tese mostram que modelos como Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T, entre outros, combinando poucas camadas de atenção completa com muitas camadas lineares, reduziram a taxa de throughput do cache KV em cerca de uma ordem de magnitude, atingindo uma compressão total de 36 vezes no Ring-2.5-1T. Assim, o cache KV pode ser transferido da rede RDMA dedicada para uma rede Ethernet comum para upload. A abordagem específica do PrfaaS consiste em montar um «cluster de pré-preenchimento» independente, que roteia apenas solicitações de contexto longo e prefixos não encontrados, enquanto solicitações curtas permanecem no cluster PD local; após o pré-preenchimento, o cache KV é enviado de volta ao cluster local via Ethernet para o decode. São introduzidos também roteamento por limite de comprimento, agendador sensível à largura de banda e um pool de cache de prefixos híbridos. A tese realizou uma série de testes com um modelo híbrido de 1T de parâmetros interno (baseado na arquitetura Kimi Linear), mostrando que a taxa de throughput do serviço geral foi 54% maior do que a de uma implantação PD idêntica, e 32% maior do que uma solução heterogênea simples, usando apenas uma largura de banda moderada entre centros de dados. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 9
  • 2
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
VolatilityOfToastingBread
· 7h atrás
Um pedido curto de manter o PD local é bastante razoável, afinal, é sensível à latência, só o contexto longo vale a pena se esforçar.
Ver originalResponder0
DustCollector
· 8h atrás
A melhoria de heterogeneidade simples foi de 32%, a de homogeneidade PD aumentou 54%, a configuração do grupo de comparação está bastante sólida.
Ver originalResponder0
Glass-HeartMarketMaker
· 9h atrás
Tsinghua + o lado obscuro da lua, a infraestrutura de grandes modelos nacionais começou a competir até alcançar o primeiro escalão global
Ver originalResponder0
StainedGlassSolarArray
· 9h atrás
A jogada de Yue An tem um pouco de sentido, descarregando o pré-preenchimento, concentrando-se na decodificação local, ganhando em atraso e custo ao mesmo tempo
Ver originalResponder0
MirrorBallReflection
· 9h atrás
O modelo de atenção híbrido é fundamental, o cache KV pode ser transmitido pela rede Ethereum, qual será a taxa de compressão?
Ver originalResponder0
PineNeedlesAndColdWind
· 9h atrás
A programação de banda larga consciente parece simples, na prática está cheia de obstáculos, eles realmente conseguiram fazê-la funcionar
Ver originalResponder0
GoldfishUnderTheIce
· 9h atrás
O modelo de 1 trilhão de parâmetros foi executado com sucesso, indicando que esta arquitetura não tem problemas de escalabilidade, não é uma brincadeira de criança.
Ver originalResponder0
MarginMoth
· 9h atrás
PrfaaS este nome foi criado, Prefill as a Service, a infraestrutura de computação em nuvem foi transferida para a inferência de grandes modelos
Ver originalResponder0
GateUser-78acf617
· 9h atrás
54% de aumento na capacidade de processamento, esses números parecem confortáveis, a arquitetura heterogênea finalmente não é apenas teoria
Ver originalResponder0
Ver mais
  • Fixado