Moonshot AI amplia a tecnologia de desacoplamento de Prefill/Decode para além de centros de dados e hardware heterogêneo

ME News Notícias, 18 de abril (UTC+8), a equipe Moonshot AI anunciou recentemente que sua tecnologia de desacoplamento de Pré-preenchimento (Prefill) e Decodificação (Decode) foi bem-sucedida ao se expandir de um único cluster para ambientes de data center cruzados e hardware heterogêneo. Segundo o artigo, essa iniciativa tem potencial para reduzir significativamente o custo de inferência por token. Anteriormente, a expansão dessa tecnologia foi impedida pelo problema do custo de transmissão do cache KV. A realização dessa inovação dependeu crucialmente de seu modelo híbrido Kimi Linear. (Fonte: InFoQ)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 10
  • 2
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
GateUser-ad8b77bd
· 13h atrás
De um único cluster para múltiplos data centers, a dificuldade de engenharia não é do mesmo nível
Ver originalResponder0
CheckTheBlockchainBefore
· 23h atrás
Como o modelo misturado é realmente combinado? É MOE ou outra arquitetura?
Ver originalResponder0
FeeTakerPhD
· 05-30 12:20
Finalmente chegou a implantação entre DCs, será que o custo de transmissão do cache KV realmente pode ser reduzido?
Ver originalResponder0
PopFruitCollage
· 05-30 12:18
Multi-data center + heterogêneo, a complexidade de operação explode, né?
Ver originalResponder0
ExitLiqNow
· 05-30 12:17
Anteriormente, o cache KV na transmissão, agora foi superado, atingindo um marco importante
Ver originalResponder0
OwlAuthorizationMonitor
· 05-30 12:17
Cada token um pouco mais barato, quantidade grande é dinheiro de verdade
Ver originalResponder0
TheStoneBehindTheVolcano
· 05-30 12:17
Moonshot, essa rodada de dívida técnica ainda precisa ser sustentada de forma bastante sólida
Ver originalResponder0
ButterStop-LossLine
· 05-30 12:17
Reduzir custos é a verdadeira prioridade, aguarde os dados de testes reais
Ver originalResponder0
LatencyLullaby
· 05-30 12:17
Separar pré-preenchimento e desacoplamento, a latência pode acabar ficando maior?
Ver originalResponder0
MechanicalHummingbirdGlass
· 05-30 12:17
O modelo híbrido Kimi tem algum valor, pode rodar em hardware heterogêneo
Ver originalResponder0
Ver projetos
  • Fixado