Notícias do Mars Finance 30 de maio: a Xiaomi anunciou oficialmente a solução de otimização de toda a cadeia do sistema de inferência da série MiMo-V2.5. A equipe concentrou-se na arquitetura composta híbrida SWA + MoE + multimodal, reconstruindo sistematicamente toda a pilha de inferência, desde a gestão de KVCache, cache em níveis, cache de prefixo até estratégias de agendamento e a cadeia de pré-carregamento/decodificação, reduzindo o armazenamento de KVCache para cerca de 1/7 da solução de nível semelhante, o que reduziu significativamente o custo de inferência em cenários de sequências longas — essa é a base tecnológica central para a redução de preços desta vez. Em 27 de maio, a API da série MiMo-V2.5 foi permanentemente reduzida de preço, com uma redução máxima de 99%, independentemente do comprimento da entrada. (Observação ampla)

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

9 Curtidas

Recompensa
9
9
1
Compartilhar

Comentário

Adicionar um comentário

GasFeesForNightRuns

· 8h atrás

A Xiaomi reduziu o custo dessa estratégia ao máximo, até o tornozelo, será que a redução de 99% é levada a sério?

Ver originalResponder0

QueuePosition

· 8h atrás

Da chip ao framework até a precificação da API, toda a cadeia está integrada, essa estratégia da Xiaomi é muito parecida com a abordagem de custo-benefício que eles usaram no mercado de smartphones na época

Ver originalResponder0

PerpColdHands

· 8h atrás

Aguardando testes práticos, se a proporção de compressão de 1/7 do KVCache for verdadeira, o gargalo de memória pode ficar mais aliviado.

Ver originalResponder0

TheRedTelephoneBoothInTheRuins

· 8h atrás

Arquitetura MoE + atenção SWA, essa configuração também está entre as melhores na comunidade de código aberto, a divulgação técnica da Xiaomi desta vez foi bastante clara

Ver originalResponder0

BlueLakeOverlooker

· 8h atrás

A estrutura de custos de raciocínio mudou, o ponto de referência de preço para aplicações downstream também precisa ser reavaliado, todo o ecossistema pode precisar de uma reformulação

Ver originalResponder0

ResilientGoldfish

· 8h atrás

Não fazer distinção de comprimento de entrada é muito forte, usuários de textos longos ficam extremamente felizes, nunca mais precisam calcular tokens com precisão.

Ver originalResponder0

GlassDomeUniverse

· 8h atrás

A cadeia de pré-preenchimento/decodificação foi alterada, o design de cache em níveis + cache de prefixo é muito detalhado, parece ter sido realmente refinado por negócios reais

Ver originalResponder0

SecondaryMarketDeserter

· 8h atrás

A Xiaomi vai tornar a inferência de grandes modelos acessível? Reduzir o preço da API em 99% como as outras empresas vão competir?

Ver originalResponder0

Semi-MeltedIceCream

· 8h atrás

27 de maio, redução de preço permanente, independentemente do comprimento da entrada — essa estratégia de precificação derruba de vez o antigo método de cobrança por token

Ver originalResponder0

Ver projetos

Tendências
Ver projetos
#
WinGoldBarsWithGrowthPoints
1.22M Popularidade
#
WTICrudeFallsBelow90Dollars
1.18M Popularidade
#
IsraelStrikesIranBTCPlunges
51.36K Popularidade
#
StockTradingChallengeUpTo17000U
187.9K Popularidade
#
USIranNegotiationGame
9.41M Popularidade

Fixado

sitemap

Detalhes técnicos da otimização de toda a cadeia do sistema de inferência do modelo MiMo da Xiaomi pela primeira vez publicamente

Tendências

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Fixado