Detalhes técnicos da otimização de toda a cadeia do sistema de inferência do modelo MiMo da Xiaomi pela primeira vez publicamente

robot
Geração de resumo em curso
Notícias da Mars Finance 30 de maio: a Xiaomi anunciou oficialmente a solução de otimização de toda a cadeia do sistema de inferência da série MiMo-V2.5. A equipe concentrou-se na arquitetura composta híbrida SWA + MoE + multimodal, reconstruindo sistematicamente toda a pilha de inferência desde a gestão de KVCache, cache em níveis, cache de prefixo até estratégias de agendamento e a cadeia de pré-carregamento/decodificação, comprimindo o armazenamento de KVCache para cerca de 1/7 do método de nível equivalente, reduzindo significativamente o custo de inferência em cenários de sequências longas — esta é a base tecnológica central desta redução de preços. Em 27 de maio, a API da série MiMo-V2.5 foi permanentemente reduzida em até 99%, independentemente do comprimento da entrada. (Observação ampla)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 9
  • 1
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
GasFeesForNightRuns
· 6h atrás
A Xiaomi reduziu os custos desta rodada de raciocínio até ao tornozelo, a redução de 99% é a sério?
Ver originalResponder0
QueuePosition
· 6h atrás
Da chip ao quadro até à precificação da API, toda a cadeia está integrada, a estratégia da Xiaomi é muito semelhante à abordagem de relação qualidade-preço que adotaram no mercado de telemóveis na altura.
Ver originalResponder0
PerpColdHands
· 7h atrás
Aguardando testes práticos, se a taxa de compressão de 1/7 do KVCache for verdadeira, o gargalo de memória de vídeo poderá aliviar-se.
Ver originalResponder0
TheRedTelephoneBoothInTheRuins
· 7h atrás
Arquitetura MoE + atenção SWA, esta configuração é considerada de primeira linha na comunidade de código aberto, a Xiaomi desta vez revelou a sua tecnologia de forma bastante transparente
Ver originalResponder0
BlueLakeOverlooker
· 7h atrás
A estrutura de custos de raciocínio mudou, o ponto de referência de preço para aplicações downstream também precisa ser reavaliado, e todo o ecossistema pode precisar de uma reestruturação.
Ver originalResponder0
ResilientGoldfish
· 7h atrás
Não distinguir o comprimento da entrada é uma jogada ousada, os usuários de textos longos ficam extasiados, nunca mais precisam calcular tokens com precisão.
Ver originalResponder0
GlassDomeUniverse
· 7h atrás
A ligação de pré-preenchimento/decodificação foi alterada, o design de cache em níveis + cache de prefixo é muito detalhado, parece ter sido realmente refinado por negócios reais
Ver originalResponder0
SecondaryMarketDeserter
· 7h atrás
A Xiaomi quer tornar a inferência de grandes modelos acessível? Reduzir o preço da API em 99% deixa os concorrentes sem argumentos
Ver originalResponder0
Semi-MeltedIceCream
· 7h atrás
27 de maio, redução de preços permanente, independentemente do comprimento da entrada — esta estratégia de precificação quebra de vez o antigo método de cobrança por token
Ver originalResponder0
Ver mais
  • Fixado