ME News Notícias, 18 de abril (UTC+8), de acordo com o monitoramento do Beating, Moonshot AI e a Universidade de Tsinghua publicaram um novo artigo no arXiv em 16 de abril intitulado "Prefill-as-a-Service", propondo que a fase de pré-preenchimento (prefill) de inferência de grandes modelos seja executada entre centros de dados. A inferência de grandes modelos ocorre em duas etapas: o prefill lê toda a entrada de uma vez e gera um cache KV; o decode então produz o resultado caractere por caractere com base nesse cache. As características de hardware necessárias para as duas etapas são completamente diferentes, o prefill consome poder de processamento, enquanto o decode consome memória de vídeo e largura de banda. A prática predominante na indústria é separar as duas etapas em máquinas diferentes (divisão PD), mas isso exige conexão RDMA dentro do mesmo centro de dados, pois o cache KV de modelos de atenção intensiva gera dezenas de Gbps por segundo, e se a transmissão for lenta, a GPU fica ociosa. A mudança vem com o novo modelo de atenção híbrida de última geração. Testes do artigo mostram que modelos como Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T, entre outros, combinando algumas camadas completas de atenção com muitas camadas lineares, reduziram a taxa de transferência do cache KV em cerca de uma ordem de magnitude, atingindo um índice de compressão total de 36 vezes no Ring-2.5-1T. Assim, o cache KV pode ser transferido da rede dedicada RDMA para uma rede Ethernet comum. A abordagem específica do PrfaaS consiste em montar um "cluster de pré-preenchimento" separado, roteando apenas solicitações de contexto longo e prefixos não encontrados, enquanto solicitações curtas permanecem no cluster PD local; após o pré-preenchimento, o cache KV é enviado de volta ao cluster local via Ethernet para o decode. Isso é complementado com a introdução de roteamento por limite de comprimento, agendador sensível à largura de banda e pool de cache de prefixos híbridos. O artigo realizou uma série de testes usando um modelo híbrido de 1T parâmetros interno (baseado na arquitetura Kimi Linear), mostrando que a taxa de serviço geral foi 54% maior do que a implantação PD homogênea, e 32% maior do que uma solução heterogênea simples, com uso moderado de largura de banda entre centros de dados por máquina. (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

10 Curtidas

Recompensa
10
10
2
Compartilhar

Comentário

Adicionar um comentário

RocksUnderTheAurora

· 2h atrás

Tsinghua + Lado Sombrio da Lua, infraestrutura de grandes modelos nacionais chegou às principais conferências internacionais

Ver originalResponder0

YieldNotYell

· 6h atrás

O design de roteamento com limite de comprimento é bastante detalhado, separar solicitações longas e curtas para processamento é a verdadeira otimização

Ver originalResponder0

CircuitDaydreamer

· 9h atrás

Leitura detalhada de artigo sobre modelo de atenção híbrida que reduz o throughput de cache KV, incluindo detalhes técnicos

Ver originalResponder0

AirdropCartographer

· 10h atrás

Um aumento de 54% é realmente atraente, mas ao usar Ethernet entre centros de dados, como lidar com a jitter?

Ver originalResponder0

DeepSeaColdStart

· 10h atrás

Apenas roteamentos não atendidos, a taxa de acerto de cache tornou-se o gargalo principal

Ver originalResponder0

UnderTheGlassDome

· 11h atrás

PD同órtico vs PD heterogêneo vs PrfaaS, essa comparação em dimensões está bem inteligente

Ver originalResponder0

BluePeonyCalmingAgent

· 11h atrás

1T parâmetro do modelo, teste isso, o custo de hardware não dá para imaginar

Ver originalResponder0

GateUser-fb035825

· 11h atrás

Implantação independente de clusters pré-preenchidos aumenta a complexidade da operação, vale a pena pelos benefícios?

Ver originalResponder0

IdleFishDaoMember

· 11h atrás

Ajuste de agendamento com percepção de largura de banda parece simples, mas na prática deve enfrentar várias dificuldades

Ver originalResponder0

GateUser-aa277334

· 11h atrás

Essa ideia é interessante, enviar o preenchimento antecipado para o remoto, focar na decodificação local, o atraso consegue suportar?

Ver originalResponder0

Ver projetos

Tendências
Ver projetos
#
WinGoldBarsWithGrowthPoints
1.21M Popularidade
#
WTICrudeFallsBelow90Dollars
1.17M Popularidade
#
IsraelStrikesIranBTCPlunges
51.3K Popularidade
#
StockTradingChallengeUpTo17000U
184.43K Popularidade
#
USIranNegotiationGame
9.41M Popularidade

Fixado

sitemap

Face oculta da lua e novo artigo da Tsinghua: pré-preenchimento de LLM pode atravessar centros de dados, throughput do modelo de 1T aumenta 54%

Tendências

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Fixado