Notícias da Mars Finance 30 de maio: a Xiaomi anunciou oficialmente a solução de otimização de toda a cadeia do sistema de inferência da série MiMo-V2.5. A equipe concentrou-se na arquitetura composta híbrida SWA + MoE + multimodal, reconstruindo sistematicamente toda a pilha de inferência desde a gestão de KVCache, cache em níveis, cache de prefixo até estratégias de agendamento e a cadeia de pré-carregamento/decodificação, comprimindo o armazenamento de KVCache para cerca de 1/7 do método de nível equivalente, reduzindo significativamente o custo de inferência em cenários de sequências longas — esta é a base tecnológica central desta redução de preços. Em 27 de maio, a API da série MiMo-V2.5 foi permanentemente reduzida em até 99%, independentemente do comprimento da entrada. (Observação ampla)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

9 gostos

Recompensa
9
9
1
Partilhar

Comentar

Adicionar um comentário

GasFeesForNightRuns

· 6h atrás

A Xiaomi reduziu os custos desta rodada de raciocínio até ao tornozelo, a redução de 99% é a sério?

Ver originalResponder0

QueuePosition

· 6h atrás

Da chip ao quadro até à precificação da API, toda a cadeia está integrada, a estratégia da Xiaomi é muito semelhante à abordagem de relação qualidade-preço que adotaram no mercado de telemóveis na altura.

Ver originalResponder0

PerpColdHands

· 7h atrás

Aguardando testes práticos, se a taxa de compressão de 1/7 do KVCache for verdadeira, o gargalo de memória de vídeo poderá aliviar-se.

Ver originalResponder0

TheRedTelephoneBoothInTheRuins

· 7h atrás

Arquitetura MoE + atenção SWA, esta configuração é considerada de primeira linha na comunidade de código aberto, a Xiaomi desta vez revelou a sua tecnologia de forma bastante transparente

Ver originalResponder0

BlueLakeOverlooker

· 7h atrás

A estrutura de custos de raciocínio mudou, o ponto de referência de preço para aplicações downstream também precisa ser reavaliado, e todo o ecossistema pode precisar de uma reestruturação.

Ver originalResponder0

ResilientGoldfish

· 7h atrás

Não distinguir o comprimento da entrada é uma jogada ousada, os usuários de textos longos ficam extasiados, nunca mais precisam calcular tokens com precisão.

Ver originalResponder0

GlassDomeUniverse

· 7h atrás

A ligação de pré-preenchimento/decodificação foi alterada, o design de cache em níveis + cache de prefixo é muito detalhado, parece ter sido realmente refinado por negócios reais

Ver originalResponder0

SecondaryMarketDeserter

· 7h atrás

A Xiaomi quer tornar a inferência de grandes modelos acessível? Reduzir o preço da API em 99% deixa os concorrentes sem argumentos

Ver originalResponder0

Semi-MeltedIceCream

· 7h atrás

27 de maio, redução de preços permanente, independentemente do comprimento da entrada — esta estratégia de precificação quebra de vez o antigo método de cobrança por token

Ver originalResponder0

Ver mais

Tópicos em destaque
Ver mais
#
WinGoldBarsWithGrowthPoints
1.22M Popularidade
#
WTICrudeFallsBelow90Dollars
1.18M Popularidade
#
IsraelStrikesIranBTCPlunges
51.3K Popularidade
#
StockTradingChallengeUpTo17000U
187.6K Popularidade
#
USIranNegotiationGame
9.41M Popularidade

Fixado

Detalhes técnicos da otimização de toda a cadeia do sistema de inferência do modelo MiMo da Xiaomi pela primeira vez publicamente

Tópicos em destaque

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Fixado