Detalles técnicos de la optimización de toda la cadena del sistema de inferencia del modelo MiMo de Xiaomi por primera vez públicamente

robot
Generación de resúmenes en curso
Noticias de Mars Finance 30 de mayo: Xiaomi anunció oficialmente la optimización de toda la cadena del sistema de inferencia de la serie MiMo-V2.5. El equipo se centró en una arquitectura compuesta por Hybrid SWA + MoE + multimodal, reconstruyendo sistemáticamente toda la pila de inferencia desde la gestión de KVCache, caché jerárquica, caché de prefijo hasta las estrategias de programación y las rutas de Prefill/Decode, reduciendo el almacenamiento de KVCache a aproximadamente 1/7 de la solución de nivel similar, lo que reduce significativamente el costo de inferencia en escenarios de secuencias largas — esta es la base tecnológica principal para la reducción de precios de esta vez. El 27 de mayo, la API de la serie MiMo-V2.5 se redujo permanentemente en precio, con una disminución máxima del 99%, sin distinguir la longitud de entrada. (Observación panorámica)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 9
  • 1
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
GasFeesForNightRuns
· hace6h
Xiaomi ha reducido los costos de esta estrategia hasta el tobillo, ¿es en serio una caída del 99%?
Ver originalResponder0
QueuePosition
· hace6h
Desde los chips hasta los marcos y la fijación de precios de la API, toda la cadena está conectada, la estrategia de Xiaomi se parece mucho a la ruta de relación calidad-precio en el mercado de teléfonos móviles de aquel entonces.
Ver originalResponder0
PerpColdHands
· hace7h
Espera una prueba práctica, si la relación de compresión de 1/7 del KVCache es cierta, el cuello de botella de la memoria se aliviará.
Ver originalResponder0
TheRedTelephoneBoothInTheRuins
· hace7h
Arquitectura MoE + atención SWA, esta configuración también se considera de primera línea en la comunidad de código abierto, Xiaomi esta vez reveló su tecnología de manera bastante clara.
Ver originalResponder0
BlueLakeOverlooker
· hace7h
La estructura de costos de razonamiento ha cambiado, y el punto de referencia de precios para las aplicaciones downstream también debe ser reevaluado, todo el ecosistema podría reestructurarse.
Ver originalResponder0
ResilientGoldfish
· hace7h
No distinguir la longitud de entrada es muy potente, los usuarios de textos largos están encantados, ya no tienen que calcular cuidadosamente los tokens.
Ver originalResponder0
GlassDomeUniverse
· hace7h
La ruta de Prefill/Decode también ha cambiado, el diseño de caché en niveles + caché de prefijos es muy detallado, parece que ha sido pulido por un negocio real.
Ver originalResponder0
SecondaryMarketDeserter
· hace7h
¿Es que Xiaomi quiere convertir la inferencia de grandes modelos en algo muy barato? ¿Reducir el precio de la API en un 99% para que otros no puedan competir?
Ver originalResponder0
Semi-MeltedIceCream
· hace7h
El 27 de mayo, reducción de precios permanente, sin distinguir la longitud de entrada—esta estrategia de precios directamente ha revolucionado la antigua forma de cobrar por token.
Ver originalResponder0
Ver más
  • Fijado