O poder de processamento do modelo de 70 camadas iguala o de modelos pequenos tradicionais, o design de arquitetura GA/SWA 1:7 é bastante interessante

Ver original
BlockBeatNews
Lofori revela a carta de redução de custos do MiMo: o cálculo de atenção pré-preenchida foi reduzido para o nível de 10 camadas de GQA global
Xiaomi MiMo-V2.5 Após a redução de preços permanente na API, anunciou a implementação de redução de custos através de atenção híbrida e cache de KV hierárquico: aumento significativo na taxa de acerto de cache e capacidade, redução drástica nos custos de cache, combinando sobreposição de cache para diminuir ainda mais os gastos. Os custos de entrada e saída caíram entre 60–80%, devido à relação entre as camadas GA/SWA de 1:7, durante a fase de pré-carregamento, que calcula apenas a janela local, fazendo com que o poder de processamento de um modelo de 70 camadas seja equivalente ao de um modelo tradicional com menos camadas. A redução de preços é uma redução estrutural de custos, defendendo a cooperação entre algoritmos de baixo nível e sistemas de inferência para controlar os custos, evitando guerras de preços.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado