Noticias de Mars Finance 30 de mayo: Xiaomi anunció oficialmente la optimización de toda la cadena del sistema de inferencia de la serie MiMo-V2.5. El equipo se centró en una arquitectura compuesta por Hybrid SWA + MoE + multimodal, reconstruyendo sistemáticamente toda la pila de inferencia desde la gestión de KVCache, caché jerárquica, caché de prefijo hasta las estrategias de programación y las rutas de Prefill/Decode, reduciendo el almacenamiento de KVCache a aproximadamente 1/7 de la solución de nivel similar, lo que reduce significativamente el costo de inferencia en escenarios de secuencias largas — esta es la base tecnológica principal para la reducción de precios de esta vez. El 27 de mayo, la API de la serie MiMo-V2.5 se redujo permanentemente en precio, con una disminución máxima del 99%, sin distinguir la longitud de entrada. (Observación panorámica)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

9 me gusta

Recompensa
9
9
1
Compartir

Comentar

Añadir un comentario

GasFeesForNightRuns

· hace6h

Xiaomi ha reducido los costos de esta estrategia hasta el tobillo, ¿es en serio una caída del 99%?

Ver originalResponder0

QueuePosition

· hace6h

Desde los chips hasta los marcos y la fijación de precios de la API, toda la cadena está conectada, la estrategia de Xiaomi se parece mucho a la ruta de relación calidad-precio en el mercado de teléfonos móviles de aquel entonces.

Ver originalResponder0

PerpColdHands

· hace7h

Espera una prueba práctica, si la relación de compresión de 1/7 del KVCache es cierta, el cuello de botella de la memoria se aliviará.

Ver originalResponder0

TheRedTelephoneBoothInTheRuins

· hace7h

Arquitectura MoE + atención SWA, esta configuración también se considera de primera línea en la comunidad de código abierto, Xiaomi esta vez reveló su tecnología de manera bastante clara.

Ver originalResponder0

BlueLakeOverlooker

· hace7h

La estructura de costos de razonamiento ha cambiado, y el punto de referencia de precios para las aplicaciones downstream también debe ser reevaluado, todo el ecosistema podría reestructurarse.

Ver originalResponder0

ResilientGoldfish

· hace7h

No distinguir la longitud de entrada es muy potente, los usuarios de textos largos están encantados, ya no tienen que calcular cuidadosamente los tokens.

Ver originalResponder0

GlassDomeUniverse

· hace7h

La ruta de Prefill/Decode también ha cambiado, el diseño de caché en niveles + caché de prefijos es muy detallado, parece que ha sido pulido por un negocio real.

Ver originalResponder0

SecondaryMarketDeserter

· hace7h

¿Es que Xiaomi quiere convertir la inferencia de grandes modelos en algo muy barato? ¿Reducir el precio de la API en un 99% para que otros no puedan competir?

Ver originalResponder0

Semi-MeltedIceCream

· hace7h

El 27 de mayo, reducción de precios permanente, sin distinguir la longitud de entrada—esta estrategia de precios directamente ha revolucionado la antigua forma de cobrar por token.

Ver originalResponder0

Temas de actualidad
Ver más
#
WinGoldBarsWithGrowthPoints
1.22M Popularidad
#
WTICrudeFallsBelow90Dollars
1.18M Popularidad
#
IsraelStrikesIranBTCPlunges
51.3K Popularidad
#
StockTradingChallengeUpTo17000U
187.6K Popularidad
#
USIranNegotiationGame
9.41M Popularidad

Fijado

Detalles técnicos de la optimización de toda la cadena del sistema de inferencia del modelo MiMo de Xiaomi por primera vez públicamente

Temas de actualidad

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Fijado