ME News Notícias, 18 de abril (UTC+8), de acordo com o monitoramento do Beating, Moonshot AI e a Universidade de Tsinghua publicaram uma nova pesquisa no arXiv em 16 de abril intitulada 《Prefill-as-a-Service》, propondo que a fase de pré-preenchimento (prefill) da inferência de grandes modelos seja executada entre centros de dados diferentes. A inferência de grandes modelos ocorre em duas etapas: o prefill lê toda a entrada de uma vez e gera um cache KV; o decode então produz o resultado caractere por caractere com base nesse cache. As duas etapas requerem características de hardware completamente diferentes, o prefill consome poder de processamento, enquanto o decode consome memória de vídeo e largura de banda. A prática predominante na indústria é separar as duas etapas em máquinas diferentes (PD separado), mas isso exige conexão RDMA dentro do mesmo centro de dados, pois o cache KV de modelos de atenção intensiva gera dezenas de Gbps por segundo, e se a transmissão for lenta, a GPU fica ociosa. A mudança vem de um novo modelo de atenção híbrida de última geração. Testes na pesquisa mostraram que modelos como Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T, entre outros, combinando poucas camadas completas de atenção com muitas camadas lineares, reduziram a taxa de transferência do cache KV em aproximadamente uma ordem de grandeza, com o Ring-2.5-1T atingindo uma compressão total de 36 vezes. Nesse momento, o cache KV pode ser transferido da rede dedicada RDMA para uma rede Ethernet comum. A abordagem específica do PrfaaS consiste em montar um "cluster de pré-preenchimento" separado, que roteia apenas solicitações de contexto longo e prefixos não encontrados, enquanto solicitações curtas permanecem no cluster PD local; após o pré-preenchimento, o cache KV é enviado de volta ao cluster local via Ethernet para o decode. Além disso, introduz-se roteamento por limite de comprimento, agendador sensível à largura de banda e um pool de cache de prefixos híbrido. A pesquisa realizou testes com um modelo híbrido de 1T de parâmetros interno (baseado na arquitetura Kimi Linear), mostrando que a taxa de serviço geral foi 54% maior do que uma implantação PD homogênea, e 32% maior do que uma solução heterogênea simples, usando uma largura de banda de centro de dados moderada por máquina. (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

7 Curtidas

Recompensa
7
6
Repostar
Compartilhar

Comentário

Adicionar um comentário

DewdropSapling

· 27m atrás

PrfaaS essa nome, no futuro ainda terá Decode-as-a-Service

Ver originalResponder0

InstantNoodle-LevelResearcher

· 1h atrás

Tsinghua + Lado Sombrio da Lua, a infraestrutura de grandes modelos domésticos começou a competir em uma nova direção

Ver originalResponder0

LateBlockLarry

· 1h atrás

54% de aumento parece promissor, mas na prática é preciso considerar isolamento multi-inquilino e recuperação de falhas

Ver originalResponder0

MempoolMaggie

· 1h atrás

Transmissão de KV em Ethernet, o custo de banda larga deve ser mais caro do que o poder de processamento, certo?

Ver originalResponder0

MintLiquidationWarning

· 2h atrás

Apenas roteamento de contexto longo não atingido, solicitações curtas permanecem localmente, essa estratégia de hierarquia é bastante prática.

Ver originalResponder0

GateUser-2100b43b

· 2h atrás

O modelo de atenção híbrida reduz a taxa de transferência do cache KV, essa ideia me lembra alguns truques do treinamento distribuído antigo.

Ver originalResponder0

Tendências
Ver projetos
#
WinGoldBarsWithGrowthPoints
1.21M Popularidade
#
WTICrudeFallsBelow90Dollars
1.53M Popularidade
#
IsraelStrikesIranBTCPlunges
51.3K Popularidade
#
StockTradingChallengeUpTo17000U
186.79K Popularidade
#
USIranNegotiationGame
9.41M Popularidade

Fixado

sitemap

Face oculta da lua e nova tese da Tsinghua: pré-preenchimento de LLM pode atravessar centros de dados, throughput do modelo de 1T aumenta 54%

Tendências

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Fixado