Notícias do site Coinjie, Luofuli anunciou na plataforma X o mecanismo de redução de custos algorítmicos após a implementação de uma redução permanente de preços na API da série do grande modelo auto-desenvolvido MiMo-v2.5. Ela revelou que, após o alinhamento do preço da API com o DeepSeek, o motor de inferência de alta carga da Xiaomi ainda consegue manter o equilíbrio entre lucro e prejuízo, sendo que a redução de custos vem principalmente da arquitetura de atenção híbrida e da otimização do cache KV hierárquico. Para atingir a meta de redução de custos de 99% no custo de cache, a estrutura de inferência da Xiaomi implementou uma otimização hierárquica do cache KV para a atenção de janela deslizante SWA, e os testes de produção mostraram que essa otimização hierárquica aumentou a capacidade de tokens do cache em 5 vezes, reduzindo em 80% o custo do cache. Luofuli afirmou que serviços de inferência de baixo custo são favoráveis para estimular a demanda por inteligência terminal, e que as empresas de grandes modelos devem evitar guerras de preços cegas, controlando os custos operacionais reais abaixo do ponto de equilíbrio por meio de um design colaborativo de algoritmos e sistemas de inferência na camada fundamental.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

10 gostos

Recompensa
10
5
2
Partilhar

Comentar

Adicionar um comentário

ASolitaryRockBeforeTheVolcano

· 5h atrás

MiMo nesta redução de preço foi realmente forte, uma redução de 99% nos custos soa a ficção científica, mas a otimização do SWA realmente tem algum valor

Ver originalResponder0

LendingRateAnxiety

· 5h atrás

A atenção híbrida + cache hierárquico, com esta combinação, as pequenas empresas enfrentam uma maior pressão nos custos de inferência.

Ver originalResponder0

Pragmatists

· 5h atrás

Como alcançar um aumento de capacidade de cache de 5 vezes? Existe algum artigo sobre cache de KV hierárquico para leitura detalhada?

Ver originalResponder0

InstantNoodlesWithContracts

· 5h atrás

A colaboração entre algoritmos e camadas do sistema para redução de custos é a verdadeira solução; apenas competir pelo preço não leva a lugar nenhum, e Luo Fulili vê isso claramente.

Ver originalResponder0

PocketValidator

· 5h atrás

DeepSeek, após alinhamento, ainda consegue equilibrar lucros e perdas, o que indica que a precificação inicial realmente deixou espaço, agora podemos considerar que voltou a ser razoável

Ver originalResponder0

Tópicos em destaque
Ver mais
#
StockTradingChallengeUpTo17000U
16.28M Popularidade
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
831.03K Popularidade
#
IsraelStrikesIranBTCPlunges
49.77K Popularidade
#
GatePredictionMarketAddsSmartMoneyTracking
13.24M Popularidade
#
MicronMarketCapBreaks1Trillion
44.34K Popularidade

Fixado

Lofori desvenda a carta de redução de custos do MiMo: o cálculo de atenção pré-preenchida reduzido ao nível global GQA de 10 camadas

Tópicos em destaque

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Fixado