Face oculta da lua e novo artigo da Tsinghua: pré-preenchimento de LLM pode atravessar centros de dados, throughput do modelo de 1T aumenta 54%

robot
Geração do resumo em andamento
ME News Notícias, 18 de abril (UTC+8), de acordo com o monitoramento do Beating, Moonshot AI e a Universidade de Tsinghua publicaram uma nova tese no arXiv em 16 de abril intitulada "Prefill-as-a-Service", propondo que a fase de pré-preenchimento (prefill) da inferência de grandes modelos seja executada entre centros de dados. A inferência de grandes modelos ocorre em duas etapas: o prefill lê toda a entrada de uma vez e gera um cache KV; o decode então produz o resultado caractere por caractere com base nesse cache. As duas etapas requerem características de hardware completamente diferentes: o prefill consome poder de processamento, enquanto o decode consome memória de vídeo e largura de banda. A prática predominante na indústria é separar as duas etapas em máquinas diferentes (divisão PD), mas isso exige conexão RDMA dentro do mesmo centro de dados, pois o cache KV de modelos de atenção intensiva gera dezenas de Gbps por segundo, e se a transmissão for lenta, a GPU fica ociosa. A mudança vem com o novo modelo de atenção híbrida de última geração. Testes na tese mostram que modelos como Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T, entre outros, combinam algumas camadas completas de atenção com muitas camadas lineares, reduzindo a taxa de transferência do cache KV em cerca de uma ordem de magnitude, com o Ring-2.5-1T atingindo uma compressão total de 36 vezes. Assim, o cache KV pode ser transferido da rede dedicada RDMA para uma rede Ethernet comum. A abordagem específica do PrfaaS consiste em montar um "cluster de pré-preenchimento" separado, que roteia apenas solicitações de contexto longo e prefixos não encontrados, enquanto solicitações curtas permanecem no cluster PD local; após o pré-preenchimento, o cache KV é enviado de volta ao cluster local via Ethernet para o decode. São introduzidos também roteamento por limite de comprimento, agendador sensível à largura de banda e pool de cache de prefixos híbridos. A tese realizou uma série de testes com um modelo híbrido de 1T de parâmetros (baseado na arquitetura Kimi Linear), mostrando que a taxa de serviço geral é 54% maior do que uma implantação PD idêntica, e 32% maior do que uma solução heterogênea simples, usando apenas largura de banda moderada entre centros de dados por máquina. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 9
  • 2
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
VolatilityOfToastingBread
· 2h atrás
Solicitar manter o PD local é bastante razoável, afinal, é sensível à latência, só vale a pena se o contexto for longo.
Ver originalResponder0
DustCollector
· 4h atrás
Aumento de 32% na melhoria heterogênea simples, aumento de 54% na PD homogênea, o grupo de comparação foi configurado de forma bastante sólida
Ver originalResponder0
Glass-HeartMarketMaker
· 4h atrás
Tsinghua + Lado Sombrio da Lua, a infraestrutura de grandes modelos nacionais começou a competir até alcançar o primeiro escalão global
Ver originalResponder0
StainedGlassSolarArray
· 4h atrás
A jogada do Yue An é interessante, descarte o pré-preenchimento, concentre-se na decodificação local, ganhando em atraso e custo.
Ver originalResponder0
MirrorBallReflection
· 5h atrás
O modelo de atenção híbrido é o núcleo, e o cache KV pode ser transmitido pela rede Ethereum, qual seria a taxa de compressão?
Ver originalResponder0
PineNeedlesAndColdWind
· 5h atrás
Ajuste de agendamento com percepção de largura de banda parece simples, na prática é cheio de obstáculos, eles realmente conseguiram fazer isso
Ver originalResponder0
GoldfishUnderTheIce
· 5h atrás
O modelo de 1 trilhão de parâmetros foi executado com sucesso, indicando que essa arquitetura de escalabilidade não tem problemas, não é algo pequeno.
Ver originalResponder0
MarginMoth
· 5h atrás
PrfaaS esse nome foi criado, Prefill as a Service, a computação em nuvem foi transferida para a inferência de grandes modelos
Ver originalResponder0
GateUser-78acf617
· 5h atrás
54% de aumento na taxa de transferência, esses números parecem confortáveis, a arquitetura heterogênea finalmente não é mais apenas teoria
Ver originalResponder0
Ver projetos
  • Fixado