ME News Notícias, 18 de abril (UTC+8), de acordo com a monitorização do Beating, Moonshot AI e a Universidade de Tsinghua publicaram uma nova tese no arXiv a 16 de abril intitulada «Prefill-as-a-Service», propondo que a fase de pré-preenchimento (prefill) da inferência de grandes modelos seja executada entre centros de dados. A inferência de grandes modelos ocorre em duas etapas: o prefill lê de uma só vez a entrada e gera um cache KV; o decode então produz o resultado caractere por caractere com base nesse cache. As características de hardware necessárias para as duas etapas são completamente diferentes, o prefill consome poder de processamento, enquanto o decode consome memória de vídeo e largura de banda. A prática predominante na indústria é separar as duas etapas em máquinas diferentes (divisão PD), mas isso exige que ambas estejam conectadas via RDMA no mesmo centro de dados, pois o cache KV de modelos de atenção intensiva gera dezenas de Gbps por segundo, e se a transmissão for lenta, a GPU fica ociosa. A mudança vem com o novo modelo de atenção híbrida de última geração. Testes na tese mostram que modelos como Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T, entre outros, combinando poucas camadas de atenção completa com muitas camadas lineares, reduziram a taxa de throughput do cache KV em cerca de uma ordem de magnitude, atingindo uma compressão total de 36 vezes no Ring-2.5-1T. Assim, o cache KV pode ser transferido da rede RDMA dedicada para uma rede Ethernet comum para upload. A abordagem específica do PrfaaS consiste em montar um «cluster de pré-preenchimento» independente, que roteia apenas solicitações de contexto longo e prefixos não encontrados, enquanto solicitações curtas permanecem no cluster PD local; após o pré-preenchimento, o cache KV é enviado de volta ao cluster local via Ethernet para o decode. São introduzidos também roteamento por limite de comprimento, agendador sensível à largura de banda e um pool de cache de prefixos híbridos. A tese realizou uma série de testes com um modelo híbrido de 1T de parâmetros interno (baseado na arquitetura Kimi Linear), mostrando que a taxa de throughput do serviço geral foi 54% maior do que a de uma implantação PD idêntica, e 32% maior do que uma solução heterogênea simples, usando apenas uma largura de banda moderada entre centros de dados. (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

7 gostos

Recompensa
7
9
2
Partilhar

Comentar

Adicionar um comentário

VolatilityOfToastingBread

· 7h atrás

Um pedido curto de manter o PD local é bastante razoável, afinal, é sensível à latência, só o contexto longo vale a pena se esforçar.

Ver originalResponder0

DustCollector

· 8h atrás

A melhoria de heterogeneidade simples foi de 32%, a de homogeneidade PD aumentou 54%, a configuração do grupo de comparação está bastante sólida.

Ver originalResponder0

Glass-HeartMarketMaker

· 9h atrás

Tsinghua + o lado obscuro da lua, a infraestrutura de grandes modelos nacionais começou a competir até alcançar o primeiro escalão global

Ver originalResponder0

StainedGlassSolarArray

· 9h atrás

A jogada de Yue An tem um pouco de sentido, descarregando o pré-preenchimento, concentrando-se na decodificação local, ganhando em atraso e custo ao mesmo tempo

Ver originalResponder0

MirrorBallReflection

· 9h atrás

O modelo de atenção híbrido é fundamental, o cache KV pode ser transmitido pela rede Ethereum, qual será a taxa de compressão?

Ver originalResponder0

PineNeedlesAndColdWind

· 9h atrás

A programação de banda larga consciente parece simples, na prática está cheia de obstáculos, eles realmente conseguiram fazê-la funcionar

Ver originalResponder0

GoldfishUnderTheIce

· 9h atrás

O modelo de 1 trilhão de parâmetros foi executado com sucesso, indicando que esta arquitetura não tem problemas de escalabilidade, não é uma brincadeira de criança.

Ver originalResponder0

MarginMoth

· 9h atrás

PrfaaS este nome foi criado, Prefill as a Service, a infraestrutura de computação em nuvem foi transferida para a inferência de grandes modelos

Ver originalResponder0

GateUser-78acf617

· 9h atrás

54% de aumento na capacidade de processamento, esses números parecem confortáveis, a arquitetura heterogênea finalmente não é apenas teoria

Ver originalResponder0

Ver mais

Tópicos em destaque
Ver mais
#
WinGoldBarsWithGrowthPoints
1.23M Popularidade
#
WTICrudeFallsBelow90Dollars
1.19M Popularidade
#
IsraelStrikesIranBTCPlunges
51.51K Popularidade
#
StockTradingChallengeUpTo17000U
198.21K Popularidade
#
USIranNegotiationGame
9.42M Popularidade

Fixado

Face oculta da Lua e novo artigo da Tsinghua: pré-preenchimento de LLM pode atravessar centros de dados, aumento de 54% na taxa de processamento de modelos de 1T

Tópicos em destaque

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Fixado