O poder de processamento do modelo de 70 camadas iguala o dos pequenos modelos tradicionais, o design de arquitetura GA/SWA 1:7 tem algo de especial

Ver original
BlockBeatNews
Lofori desvenda o segredo do MiMo para redução de custos: o cálculo de atenção pré-preenchida reduzido a 10 camadas, ao nível global GQA
Xiaomi MiMo-V2.5 Após a redução de preços permanente na API, anunciou a implementação de redução de custos através de atenção híbrida e cache de KV hierárquico: aumento significativo na taxa de acerto de cache e capacidade, redução drástica nos custos de cache, combinando sobreposição de cache para diminuir ainda mais os gastos. Os custos de entrada e saída caíram entre 60–80%, devido ao fato de que a camada GA/SWA tem uma proporção de 1:7, e na fase de pré-carregamento calcula apenas a janela local, fazendo com que o poder de processamento de um modelo de 70 camadas seja equivalente ao de um modelo tradicional com menos camadas. A redução de preços é uma redução estrutural de custos, defendendo a cooperação entre algoritmos de baixo nível e sistemas de inferência para controlar os custos, evitando guerras de preços.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado