Lofori desvenda a carta de redução de custos do MiMo: o cálculo de atenção pré-preenchida reduzido ao nível global GQA de 10 camadas

robot
Geração de resumo em curso
Notícias do site Coinjie, Luofuli anunciou na plataforma X o mecanismo de redução de custos algorítmicos após a implementação de uma redução permanente de preços na API da série do grande modelo auto-desenvolvido MiMo-v2.5. Ela revelou que, após o alinhamento do preço da API com o DeepSeek, o motor de inferência de alta carga da Xiaomi ainda consegue manter o equilíbrio entre lucro e prejuízo, sendo que a redução de custos vem principalmente da arquitetura de atenção híbrida e da otimização do cache KV hierárquico. Para atingir a meta de redução de custos de 99% no custo de cache, a estrutura de inferência da Xiaomi implementou uma otimização hierárquica do cache KV para a atenção de janela deslizante SWA, e os testes de produção mostraram que essa otimização hierárquica aumentou a capacidade de tokens do cache em 5 vezes, reduzindo em 80% o custo do cache. Luofuli afirmou que serviços de inferência de baixo custo são favoráveis para estimular a demanda por inteligência terminal, e que as empresas de grandes modelos devem evitar guerras de preços cegas, controlando os custos operacionais reais abaixo do ponto de equilíbrio por meio de um design colaborativo de algoritmos e sistemas de inferência na camada fundamental.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 5
  • 2
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
ASolitaryRockBeforeTheVolcano
· 5h atrás
MiMo nesta redução de preço foi realmente forte, uma redução de 99% nos custos soa a ficção científica, mas a otimização do SWA realmente tem algum valor
Ver originalResponder0
LendingRateAnxiety
· 5h atrás
A atenção híbrida + cache hierárquico, com esta combinação, as pequenas empresas enfrentam uma maior pressão nos custos de inferência.
Ver originalResponder0
Pragmatists
· 5h atrás
Como alcançar um aumento de capacidade de cache de 5 vezes? Existe algum artigo sobre cache de KV hierárquico para leitura detalhada?
Ver originalResponder0
InstantNoodlesWithContracts
· 5h atrás
A colaboração entre algoritmos e camadas do sistema para redução de custos é a verdadeira solução; apenas competir pelo preço não leva a lugar nenhum, e Luo Fulili vê isso claramente.
Ver originalResponder0
PocketValidator
· 5h atrás
DeepSeek, após alinhamento, ainda consegue equilibrar lucros e perdas, o que indica que a precificação inicial realmente deixou espaço, agora podemos considerar que voltou a ser razoável
Ver originalResponder0