ME News Notícias, 18 de abril (UTC+8), de acordo com a monitorização do Beating, Moonshot AI e a Universidade de Tsinghua publicaram a 16 de abril no arXiv um novo artigo intitulado «Prefill-as-a-Service», propondo que a fase de pré-preenchimento (prefill) da inferência de grandes modelos seja executada entre centros de dados.
A inferência de grandes modelos divide-se em duas etapas: o prefill lê de uma só vez a entrada e gera um cache KV; o decode depois utiliza esse cache para gerar o resultado palavra por palavra.
As características de hardware necessárias para as duas etapas são completamente diferentes, o prefill consome poder de processamento, enquanto o decode consome memória de vídeo e largura de banda.
A prática predominante na indústria é separar as duas etapas em máquinas diferentes (divisão PD), mas isso exige que ambas estejam conectadas no mesmo centro de dados via RDMA, pois o cache KV de modelos de atenção intensiva gera dezenas de Gbps por segundo, e se a transmissão for lenta, a GPU fica ociosa.
A mudança vem com o novo modelo de atenção híbrida de última geração.
O artigo relata que modelos como Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T, entre outros, combinam algumas camadas completas de atenção com muitas camadas lineares, reduzindo a taxa de transferência do cache KV em cerca de uma ordem de magnitude, atingindo uma compressão total de 36 vezes no caso do Ring-2.5-1T.
Assim, o cache KV pode ser transferido da rede RDMA dedicada para uma rede Ethernet comum para upload.
A abordagem específica do PrfaaS consiste em montar um «cluster de pré-preenchimento» independente, que roteia apenas solicitações de contexto longo, prefixos não atendidos e caches de prefixos não encontrados, enquanto solicitações curtas permanecem no cluster PD local;
após o pré-preenchimento, o cache KV é enviado de volta ao cluster local via Ethernet para o decode.
Implementa-se também o roteamento por limite de comprimento, um agendador sensível à largura de banda e um pool de cache de prefixos híbrido.
O artigo relata testes com um modelo híbrido de 1T de parâmetros (baseado na arquitetura Kimi Linear), realizado internamente, que mostrou uma taxa de throughput geral 54% superior à implantação homogênea de PD, e 32% superior a uma solução heterogênea simples, usando apenas uma largura de banda moderada entre centros de dados.
(Origem: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

10 gostos

Recompensa
10
10
2
Partilhar

Comentar

Adicionar um comentário

RocksUnderTheAurora

· 1h atrás

Tsinghua + o lado obscuro da lua, infraestrutura de grandes modelos nacionais conquistou conferências internacionais

Ver originalResponder0

YieldNotYell

· 5h atrás

O design de roteamento com limite de comprimento é bastante detalhado, separar pedidos longos e curtos para processamento é a verdadeira otimização

Ver originalResponder0

CircuitDaydreamer

· 8h atrás

Leitura detalhada de artigo sobre modelo de atenção híbrida que reduz o throughput de cache KV, detalhes técnicos e outros aspectos

Ver originalResponder0

AirdropCartographer

· 9h atrás

Um aumento de 54% é realmente atraente, mas ao usar Ethernet entre centros de dados, como lidar com a jitter?

Ver originalResponder0

DeepSeaColdStart

· 9h atrás

Apenas solicitações não roteadas, a taxa de acerto de cache tornou-se o gargalo principal

Ver originalResponder0

UnderTheGlassDome

· 9h atrás

PD homófico vs PD heterófico vs PrfaaS, essa comparação em dimensões está bem inteligente

Ver originalResponder0

BluePeonyCalmingAgent

· 10h atrás

1T parâmetros do modelo testar isto, o custo de hardware é inimaginável

Ver originalResponder0

GateUser-fb035825

· 10h atrás

Implantação independente de clusters pré-preenchidos aumenta a complexidade da operação, será que os benefícios valem a pena?

Ver originalResponder0

IdleFishDaoMember

· 10h atrás

A programação com consciência de largura de banda parece simples, mas na prática deve haver muitas armadilhas na implementação

Ver originalResponder0

GateUser-aa277334

· 10h atrás

Esta abordagem é interessante, enviar o preenchimento prévio para o servidor remoto, enquanto o local se concentra na decodificação, a latência consegue suportar?

Ver originalResponder0

Ver mais

Tópicos em destaque
Ver mais
#
WinGoldBarsWithGrowthPoints
1.21M Popularidade
#
WTICrudeFallsBelow90Dollars
1.17M Popularidade
#
IsraelStrikesIranBTCPlunges
51.3K Popularidade
#
StockTradingChallengeUpTo17000U
179.25K Popularidade
#
USIranNegotiationGame
9.41M Popularidade

Fixado

Face oculta da Lua e novo artigo da Tsinghua: pré-preenchimento de LLM pode atravessar centros de dados, desempenho de 1T modelo aumenta 54%

Tópicos em destaque

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Fixado