ME News Notícias, 18 de abril (UTC+8), de acordo com o monitoramento do Beating, Moonshot AI e a Universidade de Tsinghua publicaram uma nova tese no arXiv em 16 de abril intitulada "Prefill-as-a-Service", propondo que a fase de pré-preenchimento (prefill) da inferência de grandes modelos seja executada entre centros de dados. A inferência de grandes modelos ocorre em duas etapas: o prefill lê toda a entrada de uma vez e gera um cache KV; o decode então produz o resultado caractere por caractere com base nesse cache. As duas etapas requerem características de hardware completamente diferentes: o prefill consome poder de processamento, enquanto o decode consome memória de vídeo e largura de banda. A prática predominante na indústria é separar as duas etapas em máquinas diferentes (divisão PD), mas isso exige conexão RDMA dentro do mesmo centro de dados, pois o cache KV de modelos de atenção intensiva gera dezenas de Gbps por segundo, e se a transmissão for lenta, a GPU fica ociosa. A mudança vem com o novo modelo de atenção híbrida de última geração. Testes na tese mostram que modelos como Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T, entre outros, combinam algumas camadas completas de atenção com muitas camadas lineares, reduzindo a taxa de transferência do cache KV em cerca de uma ordem de magnitude, com o Ring-2.5-1T atingindo uma compressão total de 36 vezes. Assim, o cache KV pode ser transferido da rede dedicada RDMA para uma rede Ethernet comum. A abordagem específica do PrfaaS consiste em montar um "cluster de pré-preenchimento" separado, que roteia apenas solicitações de contexto longo e prefixos não encontrados, enquanto solicitações curtas permanecem no cluster PD local; após o pré-preenchimento, o cache KV é enviado de volta ao cluster local via Ethernet para o decode. São introduzidos também roteamento por limite de comprimento, agendador sensível à largura de banda e pool de cache de prefixos híbridos. A tese realizou uma série de testes com um modelo híbrido de 1T de parâmetros (baseado na arquitetura Kimi Linear), mostrando que a taxa de serviço geral é 54% maior do que uma implantação PD idêntica, e 32% maior do que uma solução heterogênea simples, usando apenas largura de banda moderada entre centros de dados por máquina. (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

7 Curtidas

Recompensa
7
9
2
Compartilhar

Comentário

Adicionar um comentário

VolatilityOfToastingBread

· 2h atrás

Solicitar manter o PD local é bastante razoável, afinal, é sensível à latência, só vale a pena se o contexto for longo.

Ver originalResponder0

DustCollector

· 4h atrás

Aumento de 32% na melhoria heterogênea simples, aumento de 54% na PD homogênea, o grupo de comparação foi configurado de forma bastante sólida

Ver originalResponder0

Glass-HeartMarketMaker

· 4h atrás

Tsinghua + Lado Sombrio da Lua, a infraestrutura de grandes modelos nacionais começou a competir até alcançar o primeiro escalão global

Ver originalResponder0

StainedGlassSolarArray

· 4h atrás

A jogada do Yue An é interessante, descarte o pré-preenchimento, concentre-se na decodificação local, ganhando em atraso e custo.

Ver originalResponder0

MirrorBallReflection

· 5h atrás

O modelo de atenção híbrido é o núcleo, e o cache KV pode ser transmitido pela rede Ethereum, qual seria a taxa de compressão?

Ver originalResponder0

PineNeedlesAndColdWind

· 5h atrás

Ajuste de agendamento com percepção de largura de banda parece simples, na prática é cheio de obstáculos, eles realmente conseguiram fazer isso

Ver originalResponder0

GoldfishUnderTheIce

· 5h atrás

O modelo de 1 trilhão de parâmetros foi executado com sucesso, indicando que essa arquitetura de escalabilidade não tem problemas, não é algo pequeno.

Ver originalResponder0

MarginMoth

· 5h atrás

PrfaaS esse nome foi criado, Prefill as a Service, a computação em nuvem foi transferida para a inferência de grandes modelos

Ver originalResponder0

GateUser-78acf617

· 5h atrás

54% de aumento na taxa de transferência, esses números parecem confortáveis, a arquitetura heterogênea finalmente não é mais apenas teoria

Ver originalResponder0

Ver projetos

Tendências
Ver projetos
#
WinGoldBarsWithGrowthPoints
1.23M Popularidade
#
WTICrudeFallsBelow90Dollars
1.54M Popularidade
#
IsraelStrikesIranBTCPlunges
51.45K Popularidade
#
StockTradingChallengeUpTo17000U
190.6K Popularidade
#
USIranNegotiationGame
9.41M Popularidade

Fixado

sitemap

Face oculta da lua e novo artigo da Tsinghua: pré-preenchimento de LLM pode atravessar centros de dados, throughput do modelo de 1T aumenta 54%

Tendências

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Fixado