Lofori revela a estratégia de redução de custos do MiMo: o cálculo de atenção pré-preenchida foi reduzido para o nível de atenção global GQA de 10 camadas

robot
Geração do resumo em andamento
Notícias do Coinjie.com, Luofuli anunciou na plataforma X a mecânica de redução de custos algorítmicos após a implementação de uma redução permanente de preços na API da série do grande modelo autodesenvolvido MiMo-v2.5. Ela revelou que, após o alinhamento do preço da API com o DeepSeek, o motor de inferência de alta carga da Xiaomi ainda consegue manter o equilíbrio entre lucro e prejuízo, sendo que a redução de custos vem principalmente da arquitetura de atenção híbrida e da otimização de cache KV hierárquico. Para atingir a meta de redução de custos de 99% no custo de cache, a estrutura de inferência da Xiaomi implementou uma otimização de cache KV hierárquico para a atenção de janela deslizante SWA, e os testes de produção mostraram que a otimização hierárquica aumentou a capacidade de tokens do cache em 5 vezes, reduzindo em 80% o custo do cache. Luofuli afirmou que serviços de inferência de baixo custo são benéficos para estimular a demanda por inteligência terminal, e que empresas de grandes modelos devem evitar guerras de preços cegas, controlando os custos operacionais reais abaixo do ponto de equilíbrio por meio de um design colaborativo de algoritmos e sistemas de inferência na camada fundamental.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 5
  • 2
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
ASolitaryRockBeforeTheVolcano
· 3h atrás
MiMo nesta queda de preço foi realmente forte, uma redução de 99% nos custos soa como ficção científica, mas a otimização do SWA realmente tem algum valor
Ver originalResponder0
LendingRateAnxiety
· 3h atrás
Atenção híbrida + cache hierárquico, com essa combinação, os custos de inferência para pequenas empresas ficaram ainda maiores.
Ver originalResponder0
Pragmatists
· 3h atrás
Como alcançar um aumento de capacidade de cache de 5 vezes? Existe algum artigo sobre cache de KV hierárquico para leitura detalhada?
Ver originalResponder0
InstantNoodlesWithContracts
· 3h atrás
A colaboração entre algoritmos e camadas de sistema para redução de custos é a verdadeira solução; apenas focar no preço do token não leva a lugar algum, e Luofuli vê isso claramente.
Ver originalResponder0
PocketValidator
· 3h atrás
DeepSeek, após o alinhamento, ainda consegue equilibrar ganhos e perdas, indicando que a precificação inicial realmente deixou espaço, agora pode-se dizer que voltou a um nível razoável
Ver originalResponder0