币界网报道，罗福莉在X平台公布MiMo-v2.5 API永久降价后的降本机制：与DeepSeek对齐后，高负载推理仍保持盈亏平衡，成本来自混合注意力与层次化KV缓存。 Para alcançar o objetivo de reduzir o custo de cache em 99%, a estrutura de inferência Mi fez otimizações de cache KV hierárquico para SWA, Testes mostraram que a capacidade de cache aumentou 5 vezes, e o custo caiu 80%. Ela afirmou que a inferência de baixo custo pode estimular a demanda final, as empresas devem evitar reduções de preço destrutivas, Através de algoritmos e colaboração com o sistema de inferência de baixo nível, controlar o custo operacional real abaixo do ponto de equilíbrio.

CoinNetwork

2026-05-27 14:24:21

Geração do resumo em andamento

Notícias do Coinjie.com, Luofuli anunciou na plataforma X a mecânica de redução de custos algorítmicos após a implementação de uma redução permanente de preços na API da série do grande modelo autodesenvolvido MiMo-v2.5. Ela revelou que, após o alinhamento do preço da API com o DeepSeek, o motor de inferência de alta carga da Xiaomi ainda consegue manter o equilíbrio entre lucro e prejuízo, sendo que a redução de custos vem principalmente da arquitetura de atenção híbrida e da otimização de cache KV hierárquico. Para atingir a meta de redução de custos de 99% no custo de cache, a estrutura de inferência da Xiaomi implementou uma otimização de cache KV hierárquico para a atenção de janela deslizante SWA, e os testes de produção mostraram que a otimização hierárquica aumentou a capacidade de tokens do cache em 5 vezes, reduzindo em 80% o custo do cache. Luofuli afirmou que serviços de inferência de baixo custo são benéficos para estimular a demanda por inteligência terminal, e que empresas de grandes modelos devem evitar guerras de preços cegas, controlando os custos operacionais reais abaixo do ponto de equilíbrio por meio de um design colaborativo de algoritmos e sistemas de inferência na camada fundamental.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

9 Curtidas

Recompensa
9
5
2
Compartilhar

Comentário

Adicionar um comentário

ASolitaryRockBeforeTheVolcano

· 3h atrás

MiMo nesta queda de preço foi realmente forte, uma redução de 99% nos custos soa como ficção científica, mas a otimização do SWA realmente tem algum valor

Ver originalResponder0

LendingRateAnxiety

· 3h atrás

Atenção híbrida + cache hierárquico, com essa combinação, os custos de inferência para pequenas empresas ficaram ainda maiores.

Ver originalResponder0

Pragmatists

· 3h atrás

Como alcançar um aumento de capacidade de cache de 5 vezes? Existe algum artigo sobre cache de KV hierárquico para leitura detalhada?

Ver originalResponder0

InstantNoodlesWithContracts

· 3h atrás

A colaboração entre algoritmos e camadas de sistema para redução de custos é a verdadeira solução; apenas focar no preço do token não leva a lugar algum, e Luofuli vê isso claramente.

Ver originalResponder0

PocketValidator

· 3h atrás

DeepSeek, após o alinhamento, ainda consegue equilibrar ganhos e perdas, indicando que a precificação inicial realmente deixou espaço, agora pode-se dizer que voltou a um nível razoável

Ver originalResponder0

Tendências
Ver projetos
#
StockTradingChallengeUpTo17000U
16.01M Popularidade
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
829.51K Popularidade
#
IsraelStrikesIranBTCPlunges
49.71K Popularidade
#
GatePredictionMarketAddsSmartMoneyTracking
12.95M Popularidade
#
MicronMarketCapBreaks1Trillion
43.06K Popularidade

Fixado

sitemap

Lofori revela a estratégia de redução de custos do MiMo: o cálculo de atenção pré-preenchida foi reduzido para o nível de atenção global GQA de 10 camadas

Tendências

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Fixado