Moonshot AI amplia a tecnologia de desacoplamento de Prefill/Decode para além de centros de dados e hardware heterogêneo

ME News Notícias, 18 de abril (UTC+8), a equipe Moonshot AI anunciou recentemente que sua tecnologia de desacoplamento de Pré-preenchimento (Prefill) e Decodificação (Decode) foi bem-sucedida ao expandir de um único cluster para ambientes de data center cruzados e hardware heterogêneo. Segundo o artigo, essa medida deve reduzir significativamente o custo de inferência por token. Anteriormente, a expansão dessa tecnologia foi impedida pelo problema de custo de transmissão do cache KV. A realização dessa inovação dependeu crucialmente de seu modelo híbrido Kimi Linear. (Fonte: InFoQ)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 5
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
EchoOfL2
· 1h atrás
De um único cluster para múltiplos data centers, esse passo foi grande o suficiente, a estabilidade foi verificada?
Ver originalResponder0
AirdropSideQuest
· 5h atrás
A adaptação a hardware heterogêneo é o maior desafio, se a Moonshot consegue resolver isso, mostra que a equipe de infraestrutura é competente.
Ver originalResponder0
SugarAirdropDream
· 5h atrás
O custo é a chave para a implementação de IA, essa ideia de desacoplar Prefill e Decode, provavelmente, já está sendo estudada pelas outras equipes de grandes modelos durante a noite.
Ver originalResponder0
GlitchOrchard
· 5h atrás
Kimi, essa inovação técnica realmente é de alto nível, consegue manter baixa latência mesmo ao atravessar centros de dados, o custo caiu, e a camada de aplicação tem um espaço maior para imaginar possibilidades
Ver originalResponder0
MoonlightMineralWater
· 5h atrás
Redução no custo de cada token significa que desenvolvedores pequenos e médios também poderão usar contextos longos, o que é uma coisa boa
Ver originalResponder0
  • Fixado