Moonshot AI estende a tecnologia de desacoplamento Prefill/Decode para entre centros de dados e hardware heterogéneo

ME News Notícias, 18 de abril (UTC+8), a equipa Moonshot AI anunciou recentemente que a sua tecnologia de desacoplamento de Prefill (pré-preenchimento) e Decode (decodificação) foi bem-sucedida na expansão de um único cluster para ambientes de múltiplos data centers e hardware heterogéneo. Segundo o artigo, esta iniciativa tem potencial para reduzir significativamente o custo de inferência por token. Anteriormente, a expansão desta tecnologia tinha sido impedida pelo problema do overhead na transmissão do cache KV. A realização desta inovação dependeu crucialmente do seu modelo híbrido Kimi Linear. (Fonte: InFoQ)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 5
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
EchoOfL2
· 6h atrás
De um único cluster para múltiplos centros de dados, este passo foi grande o suficiente, a estabilidade foi verificada?
Ver originalResponder0
AirdropSideQuest
· 10h atrás
A adaptação a hardware heterogéneo é o maior desafio, se a Moonshot consegue resolver isso, mostra que a equipa de infra tem competências de excelência
Ver originalResponder0
SugarAirdropDream
· 10h atrás
O custo é a chave para a implementação de IA, a ideia de desacoplar Prefill e Decode, provavelmente, já está sendo estudada pelas outras equipes de grandes modelos durante a noite
Ver originalResponder0
GlitchOrchard
· 10h atrás
Kimi, esta inovação técnica realmente é de alto nível, consegue manter baixa latência mesmo através de múltiplos centros de dados, os custos diminuíram, e a camada de aplicação tem um espaço de imaginação ainda maior
Ver originalResponder0
MoonlightMineralWater
· 10h atrás
Redução do custo de cada token significa que desenvolvedores de pequeno e médio porte também podem usar contextos longos, o que é uma coisa boa
Ver originalResponder0
  • Fixado