Luofuli revela la carta secreta de reducción de costos de MiMo: el cálculo de atención de prellenado se reduce a un nivel global GQA de 10 capas

robot
Generación de resúmenes en curso
Mensaje de CoinWorld, Luo Fuli anunció en la plataforma X el mecanismo de reducción de costos algorítmicos tras la implementación de una bajada permanente en los precios de API de la serie de modelos grandes autodesarrollados MiMo-v2.5.
Ella reveló que, tras alinear los precios del API con DeepSeek, el motor de inferencia de alta carga de Xiaomi aún puede mantener el equilibrio entre ganancias y pérdidas, y que la reducción de costos proviene principalmente de la arquitectura de atención híbrida y la optimización de caché KV jerárquico.
Con el objetivo de reducir en un 99% los costos de acierto de caché, el marco de inferencia de Xiaomi implementó una optimización de caché KV jerárquico para la atención de ventana deslizante SWA, y las pruebas de producción mostraron que la optimización jerárquica elevó la capacidad de tokens en caché a 5 veces, reduciendo en un 80% los costos de caché.
Luo Fuli afirmó que los servicios de inferencia de bajo costo son beneficiosos para estimular la demanda de inteligencia en terminales, y que las empresas de modelos grandes deben evitar guerras de precios ciegas, controlando los gastos operativos reales por debajo del umbral de equilibrio mediante un diseño colaborativo en los niveles inferiores del sistema algorítmico y de inferencia.
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 5
  • 2
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
ASolitaryRockBeforeTheVolcano
· hace5h
MiMo esta bajada de precios es realmente dura, una reducción del 99% en costos suena a ciencia ficción, pero la optimización de SWA realmente tiene algo de valor
Ver originalResponder0
LendingRateAnxiety
· hace5h
Atención mixta + caché jerárquico, con esta combinación, las pequeñas empresas enfrentan mayores costos de inferencia.
Ver originalResponder0
Pragmatists
· hace5h
¿Cómo se logra un aumento de la capacidad de caché de 5 veces? ¿Existe algún artículo sobre caché KV jerárquico para leer en detalle?
Ver originalResponder0
InstantNoodlesWithContracts
· hace5h
La colaboración entre el nivel de algoritmos y sistemas para reducir costos es la verdadera solución; solo centrarse en el precio del volumen no tiene futuro, Luo Fulili lo ve muy claramente.
Ver originalResponder0
PocketValidator
· hace5h
DeepSeek, después de la alineación, aún puede equilibrar ganancias y pérdidas, lo que indica que la fijación de precios inicial realmente dejó espacio, ahora se considera que vuelve a ser razonable
Ver originalResponder0