ME News Notícias, 18 de abril (UTC+8), a equipe Moonshot AI anunciou recentemente que sua tecnologia de desacoplamento de Pré-preenchimento (Prefill) e Decodificação (Decode) foi bem-sucedida ao expandir de um único cluster para ambientes de múltiplos data centers e hardware heterogêneo. Segundo o artigo, essa iniciativa tem potencial para reduzir significativamente o custo de inferência por token. Anteriormente, a expansão dessa tecnologia era impedida pelo problema do custo de transmissão do cache KV. A realização dessa inovação dependeu crucialmente do seu modelo híbrido Kimi Linear. (Fonte: InFoQ)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

10 gostos

Recompensa
10
10
2
Partilhar

Comentar

Adicionar um comentário

GateUser-ad8b77bd

· 10h atrás

De um único cluster para múltiplos DCs, a dificuldade de engenharia não é do mesmo nível

Ver originalResponder0

CheckTheBlockchainBefore

· 20h atrás

Como é que o modelo misturado é realmente combinado? É MOE ou outra arquitetura?

Ver originalResponder0

FeeTakerPhD

· 21h atrás

Finalmente chegou a implantação entre DCs, será que o custo de transmissão do cache KV realmente pode ser reduzido?

Ver originalResponder0

PopFruitCollage

· 21h atrás

Multi-data center + heterogéneo, a complexidade de operações explode, não é?

Ver originalResponder0

ExitLiqNow

· 21h atrás

Anteriormente, a transmissão de cache KV foi bloqueada, agora foi atingido um marco importante

Ver originalResponder0

OwlAuthorizationMonitor

· 21h atrás

Cada token mais barato, quantidade grande é dinheiro de verdade

Ver originalResponder0

TheStoneBehindTheVolcano

· 21h atrás

Moonshot esta onda de dívida técnica ainda precisa ser bastante impressionante

Ver originalResponder0

ButterStop-LossLine

· 21h atrás

Reduzir custos é a verdadeira prioridade, aguardar dados de testes reais

Ver originalResponder0

LatencyLullaby

· 21h atrás

Separar pré-preenchimento e desacoplamento, será que o atraso não vai acabar ficando maior?

Ver originalResponder0

MechanicalHummingbirdGlass

· 21h atrás

O modelo híbrido Kimi tem alguma coisa, pode rodar em hardware heterogêneo

Ver originalResponder0

Ver mais

Tópicos em destaque
Ver mais
#
WinGoldBarsWithGrowthPoints
1.23M Popularidade
#
WTICrudeFallsBelow90Dollars
1.19M Popularidade
#
IsraelStrikesIranBTCPlunges
51.51K Popularidade
#
StockTradingChallengeUpTo17000U
196.77K Popularidade
#
USIranNegotiationGame
9.42M Popularidade

Fixado

Moonshot AI estende a tecnologia de desacoplamento de Prefill/Decode para além de centros de dados e hardware heterogéneo

Tópicos em destaque

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Fixado