Moonshot AI estende a tecnologia de desacoplamento de Prefill/Decode para além de centros de dados e hardware heterogéneo

ME News Notícias, 18 de abril (UTC+8), a equipe Moonshot AI anunciou recentemente que sua tecnologia de desacoplamento de Pré-preenchimento (Prefill) e Decodificação (Decode) foi bem-sucedida ao expandir de um único cluster para ambientes de múltiplos data centers e hardware heterogêneo. Segundo o artigo, essa iniciativa tem potencial para reduzir significativamente o custo de inferência por token. Anteriormente, a expansão dessa tecnologia era impedida pelo problema do custo de transmissão do cache KV. A realização dessa inovação dependeu crucialmente do seu modelo híbrido Kimi Linear. (Fonte: InFoQ)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 10
  • 2
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
GateUser-ad8b77bd
· 10h atrás
De um único cluster para múltiplos DCs, a dificuldade de engenharia não é do mesmo nível
Ver originalResponder0
CheckTheBlockchainBefore
· 20h atrás
Como é que o modelo misturado é realmente combinado? É MOE ou outra arquitetura?
Ver originalResponder0
FeeTakerPhD
· 21h atrás
Finalmente chegou a implantação entre DCs, será que o custo de transmissão do cache KV realmente pode ser reduzido?
Ver originalResponder0
PopFruitCollage
· 21h atrás
Multi-data center + heterogéneo, a complexidade de operações explode, não é?
Ver originalResponder0
ExitLiqNow
· 21h atrás
Anteriormente, a transmissão de cache KV foi bloqueada, agora foi atingido um marco importante
Ver originalResponder0
OwlAuthorizationMonitor
· 21h atrás
Cada token mais barato, quantidade grande é dinheiro de verdade
Ver originalResponder0
TheStoneBehindTheVolcano
· 21h atrás
Moonshot esta onda de dívida técnica ainda precisa ser bastante impressionante
Ver originalResponder0
ButterStop-LossLine
· 21h atrás
Reduzir custos é a verdadeira prioridade, aguardar dados de testes reais
Ver originalResponder0
LatencyLullaby
· 21h atrás
Separar pré-preenchimento e desacoplamento, será que o atraso não vai acabar ficando maior?
Ver originalResponder0
MechanicalHummingbirdGlass
· 21h atrás
O modelo híbrido Kimi tem alguma coisa, pode rodar em hardware heterogêneo
Ver originalResponder0
Ver mais
  • Fixado