Detalhes técnicos da otimização de toda a cadeia do sistema de inferência do modelo MiMo da Xiaomi pela primeira vez publicamente

robot
Geração do resumo em andamento
Notícias do Mars Finance 30 de maio: a Xiaomi anunciou oficialmente a solução de otimização de toda a cadeia do sistema de inferência da série MiMo-V2.5. A equipe concentrou-se na arquitetura composta híbrida SWA + MoE + multimodal, reconstruindo sistematicamente toda a pilha de inferência, desde a gestão de KVCache, cache em níveis, cache de prefixo até estratégias de agendamento e a cadeia de pré-carregamento/decodificação, reduzindo o armazenamento de KVCache para cerca de 1/7 da solução de nível semelhante, o que reduziu significativamente o custo de inferência em cenários de sequências longas — essa é a base tecnológica central para a redução de preços desta vez. Em 27 de maio, a API da série MiMo-V2.5 foi permanentemente reduzida de preço, com uma redução máxima de 99%, independentemente do comprimento da entrada. (Observação ampla)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 9
  • 1
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
GasFeesForNightRuns
· 8h atrás
A Xiaomi reduziu o custo dessa estratégia ao máximo, até o tornozelo, será que a redução de 99% é levada a sério?
Ver originalResponder0
QueuePosition
· 8h atrás
Da chip ao framework até a precificação da API, toda a cadeia está integrada, essa estratégia da Xiaomi é muito parecida com a abordagem de custo-benefício que eles usaram no mercado de smartphones na época
Ver originalResponder0
PerpColdHands
· 8h atrás
Aguardando testes práticos, se a proporção de compressão de 1/7 do KVCache for verdadeira, o gargalo de memória pode ficar mais aliviado.
Ver originalResponder0
TheRedTelephoneBoothInTheRuins
· 8h atrás
Arquitetura MoE + atenção SWA, essa configuração também está entre as melhores na comunidade de código aberto, a divulgação técnica da Xiaomi desta vez foi bastante clara
Ver originalResponder0
BlueLakeOverlooker
· 8h atrás
A estrutura de custos de raciocínio mudou, o ponto de referência de preço para aplicações downstream também precisa ser reavaliado, todo o ecossistema pode precisar de uma reformulação
Ver originalResponder0
ResilientGoldfish
· 8h atrás
Não fazer distinção de comprimento de entrada é muito forte, usuários de textos longos ficam extremamente felizes, nunca mais precisam calcular tokens com precisão.
Ver originalResponder0
GlassDomeUniverse
· 8h atrás
A cadeia de pré-preenchimento/decodificação foi alterada, o design de cache em níveis + cache de prefixo é muito detalhado, parece ter sido realmente refinado por negócios reais
Ver originalResponder0
SecondaryMarketDeserter
· 8h atrás
A Xiaomi vai tornar a inferência de grandes modelos acessível? Reduzir o preço da API em 99% como as outras empresas vão competir?
Ver originalResponder0
Semi-MeltedIceCream
· 8h atrás
27 de maio, redução de preço permanente, independentemente do comprimento da entrada — essa estratégia de precificação derruba de vez o antigo método de cobrança por token
Ver originalResponder0
Ver projetos
  • Fixado