El poder de cómputo del modelo de 70 capas iguala al de modelos pequeños tradicionales, el diseño arquitectónico de GA/SWA con una proporción de 1:7 tiene su mérito

Ver original
BlockBeatNews
Luofuli revela la carta secreta de reducción de costos de MiMo: el cálculo de atención de prellenado se reduce a un nivel global GQA de 10 capas
Xiaomi MiMo-V2.5 Después de la reducción de precios permanente en la API, se anunció que logra reducir costos mediante la atención híbrida y la implementación de caché de valores clave jerárquicos: mejora significativa en la tasa de aciertos y capacidad de caché, reducción drástica en el costo de la caché, combinando la superposición de caché para reducir aún más los gastos. La entrada y salida de costos disminuyen entre un 60% y un 80%, debido a que la proporción de capas GA/SWA es 1:7, y en la fase de precarga solo se calcula la ventana local, haciendo que la potencia de cálculo de un modelo de 70 capas sea comparable a la de un modelo tradicional con menos capas. La reducción de precios es una reducción estructural de costos, promoviendo la colaboración entre algoritmos de bajo nivel y sistemas de inferencia para controlar los costos, evitando guerras de precios.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado