ME News Notícias, 18 de abril (UTC+8), de acordo com a monitorização do Beating, Moonshot AI e a Universidade de Tsinghua publicaram a 16 de abril no arXiv um novo artigo intitulado «Prefill-as-a-Service», propondo que a fase de pré-preenchimento (prefill) da inferência de grandes modelos seja executada entre centros de dados.
A inferência de grandes modelos ocorre em duas etapas: o prefill lê de uma só vez a entrada e gera um cache KV; o decode então produz o resultado palavra por palavra com base nesse cache.
As características de hardware necessárias para as duas etapas são completamente diferentes, o prefill consome poder de processamento, enquanto o decode consome memória de vídeo e largura de banda.
A prática predominante na indústria é separar as duas etapas em máquinas diferentes (divisão PD), mas isso exige que ambas estejam conectadas via RDMA no mesmo centro de dados, pois o cache KV de modelos de atenção intensiva gera dezenas de Gbps por segundo, e se a transmissão for lenta, a GPU fica ociosa.
A mudança vem com a nova geração de modelos de atenção híbrida.
O artigo relata que modelos como Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T, entre outros, combinam algumas camadas de atenção completas com muitas camadas lineares, reduzindo a taxa de transferência do cache KV em aproximadamente uma ordem de grandeza, com o Ring-2.5-1T atingindo uma compressão total de 36 vezes.
Assim, o cache KV pode ser transferido da rede RDMA dedicada para uma rede Ethernet comum para upload.
A abordagem específica do PrfaaS: montar um «cluster de pré-preenchimento» independente, que roteia apenas solicitações de contexto longo e prefixos não atendidos, enquanto solicitações curtas permanecem no cluster PD local; após o pré-preenchimento, o cache KV é enviado de volta ao cluster local via Ethernet para o decode.
Implementa-se também o roteamento por limite de comprimento, um agendador sensível à largura de banda e um pool de cache de prefixos híbrido.
O artigo realizou uma série de testes com um modelo híbrido de 1T de parâmetros interno (baseado na arquitetura Kimi Linear), mostrando que a taxa de serviço geral é 54% maior do que uma implantação PD idêntica, e 32% maior do que uma solução heterogênea simples, usando apenas uma largura de banda moderada entre centros de dados por máquina.
(Origem: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

13 gostos

Recompensa
13
7
1
Partilhar

Comentar

Adicionar um comentário

GateUser-57ab9c02

· 2h atrás

Um pedido curto de manter local é bastante razoável, evita exagerar na questão

Ver originalResponder0

Cream-ColoredCross-ChainBridge

· 2h atrás

A heterogeneidade simples pode ser superada em 32%, grande disparidade na infraestrutura básica

Ver originalResponder0

CandleSitter

· 2h atrás

PD separação leva a jogabilidade a um novo nível

Ver originalResponder0

MidnightReconciler

· 2h atrás

A face oculta da lua nesta rodada de produção técnica pode ser adequada

Ver originalResponder0

WatercolorGlassBottle

· 3h atrás

A explicação da programação sensível à largura de banda mostra que eles realmente passaram por dificuldades

Ver originalResponder0

MistValleySignpost

· 3h atrás

Como o mecanismo de sincronização de decodificação de retorno é projetado?

Ver originalResponder0

SeaSaltMintCandy

· 3h atrás

Sinto que é especialmente amigável para cenários de contexto longo

Ver originalResponder0

Tópicos em destaque
Ver mais
#
WinGoldBarsWithGrowthPoints
1.21M Popularidade
#
WTICrudeFallsBelow90Dollars
1.18M Popularidade
#
IsraelStrikesIranBTCPlunges
51.36K Popularidade
#
StockTradingChallengeUpTo17000U
190.63K Popularidade
#
USIranNegotiationGame
9.41M Popularidade

Fixado

Face oculta da lua e nova tese da Tsinghua: pré-preenchimento de LLM pode atravessar centros de dados, desempenho do modelo de 1T aumenta 54%

Tópicos em destaque

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Fixado