A redução de custos de cache de 99% parece exagerada, mas a cache de KV hierárquica SWA realmente consegue aumentar a capacidade, e estar abaixo da linha de equilíbrio de lucros e perdas é que é a verdadeira barreira de proteção

Ver original
CoinNetwork
Lofori desvenda a carta de redução de custos do MiMo: o cálculo de atenção pré-preenchida reduzido ao nível global GQA de 10 camadas
币界网报道,罗福莉在X平台公布MiMo-v2.5 API永久降价后的降本机制:与DeepSeek对齐后,高负载推理仍保持盈亏平衡,成本来自混合注意力与层次化KV缓存。
Para alcançar o objetivo de reduzir o custo de cache em 99%, a estrutura de inferência Mi fez otimizações de cache KV hierárquico para SWA, os testes mostraram que a capacidade de cache aumentou 5 vezes, e o custo caiu 80%.
Ela afirmou que a inferência de baixo custo pode estimular a demanda final, as empresas devem evitar reduções de preço destrutivas, e através da colaboração entre algoritmos e o sistema de inferência na camada inferior, manter os custos operacionais reais abaixo do ponto de equilíbrio.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado