A redução de custos de cache hit de 99% parece exagerada, mas o cache de KV hierárquico da camada SWA realmente consegue aumentar a capacidade, e estar abaixo da linha de equilíbrio de lucros e perdas é que é a verdadeira barreira de proteção

Ver original
CoinNetwork
Lofori revela a estratégia de redução de custos do MiMo: o cálculo de atenção pré-preenchida foi reduzido para o nível de atenção global GQA de 10 camadas
币界网报道,罗福莉在X平台公布MiMo-v2.5 API永久降价后的降本机制:与DeepSeek对齐后,高负载推理仍保持盈亏平衡,成本来自混合注意力与层次化KV缓存。
Para alcançar o objetivo de reduzir o custo de cache em 99%, a estrutura de inferência Mi fez otimizações de cache KV hierárquico para SWA,
Testes mostraram que a capacidade de cache aumentou 5 vezes, e o custo caiu 80%.
Ela afirmou que a inferência de baixo custo pode estimular a demanda final, as empresas devem evitar reduções de preço destrutivas,
Através de algoritmos e colaboração com o sistema de inferência de baixo nível, controlar o custo operacional real abaixo do ponto de equilíbrio.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado