Una reducción del 99% en el costo por aciertos de caché suena exagerada, pero la caché KV jerárquica en la capa SWA realmente puede aumentar la capacidad, y estar por debajo de la línea de equilibrio es lo que realmente constituye una ventaja competitiva.

Ver original
CoinNetwork
Luofuli revela la carta secreta de reducción de costos de MiMo: el cálculo de atención de prellenado se reduce a un nivel global GQA de 10 capas
La red de la comunidad de criptomonedas informa que Luo Fulie anunció en la plataforma X el mecanismo de reducción de costos permanente tras la bajada de precios del API de MiMo-v2.5: tras alinearse con DeepSeek, la inferencia de alta carga aún mantiene el equilibrio entre ganancias y pérdidas, y el costo proviene de la atención híbrida y la caché de KV jerárquica. Para lograr el objetivo de reducir en un 99% el costo de aciertos de caché, el marco de inferencia de Mi ha optimizado la caché de KV jerárquica para SWA, y las pruebas muestran que la capacidad de caché se incrementó 5 veces, y el costo se redujo en un 80%. Ella afirmó que la inferencia de bajo costo puede estimular la demanda terminal, y las empresas deben evitar una reducción de precios destructiva, controlando el gasto operativo real por debajo del umbral de equilibrio mediante la colaboración entre algoritmos y la capa base del sistema de inferencia.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado