La red de la comunidad de criptomonedas informa que Luo Fulie anunció en la plataforma X el mecanismo de reducción de costos permanente tras la bajada de precios del API de MiMo-v2.5: tras alinearse con DeepSeek, la inferencia de alta carga aún mantiene el equilibrio entre ganancias y pérdidas, y el costo proviene de la atención híbrida y la caché de KV jerárquica. Para lograr el objetivo de reducir en un 99% el costo de aciertos de caché, el marco de inferencia de Mi ha optimizado la caché de KV jerárquica para SWA, y las pruebas muestran que la capacidad de caché se incrementó 5 veces, y el costo se redujo en un 80%. Ella afirmó que la inferencia de bajo costo puede estimular la demanda terminal, y las empresas deben evitar una reducción de precios destructiva, controlando el gasto operativo real por debajo del umbral de equilibrio mediante la colaboración entre algoritmos y la capa base del sistema de inferencia.

CoinNetwork

2026-05-27 14:24:21

Generación de resúmenes en curso

Mensaje de CoinWorld, Luo Fuli anunció en la plataforma X el mecanismo de reducción de costos algorítmicos tras la implementación de una bajada permanente en los precios de API de la serie de modelos grandes autodesarrollados MiMo-v2.5.
Ella reveló que, tras alinear los precios del API con DeepSeek, el motor de inferencia de alta carga de Xiaomi aún puede mantener el equilibrio entre ganancias y pérdidas, y que la reducción de costos proviene principalmente de la arquitectura de atención híbrida y la optimización de caché KV jerárquico.
Con el objetivo de reducir en un 99% los costos de acierto de caché, el marco de inferencia de Xiaomi implementó una optimización de caché KV jerárquico para la atención de ventana deslizante SWA, y las pruebas de producción mostraron que la optimización jerárquica elevó la capacidad de tokens en caché a 5 veces, reduciendo en un 80% los costos de caché.
Luo Fuli afirmó que los servicios de inferencia de bajo costo son beneficiosos para estimular la demanda de inteligencia en terminales, y que las empresas de modelos grandes deben evitar guerras de precios ciegas, controlando los gastos operativos reales por debajo del umbral de equilibrio mediante un diseño colaborativo en los niveles inferiores del sistema algorítmico y de inferencia.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

10 me gusta

Recompensa
10
5
2
Compartir

Comentar

Añadir un comentario

ASolitaryRockBeforeTheVolcano

· hace5h

MiMo esta bajada de precios es realmente dura, una reducción del 99% en costos suena a ciencia ficción, pero la optimización de SWA realmente tiene algo de valor

Ver originalResponder0

LendingRateAnxiety

· hace5h

Atención mixta + caché jerárquico, con esta combinación, las pequeñas empresas enfrentan mayores costos de inferencia.

Ver originalResponder0

Pragmatists

· hace5h

¿Cómo se logra un aumento de la capacidad de caché de 5 veces? ¿Existe algún artículo sobre caché KV jerárquico para leer en detalle?

Ver originalResponder0

InstantNoodlesWithContracts

· hace5h

La colaboración entre el nivel de algoritmos y sistemas para reducir costos es la verdadera solución; solo centrarse en el precio del volumen no tiene futuro, Luo Fulili lo ve muy claramente.

Ver originalResponder0

PocketValidator

· hace5h

DeepSeek, después de la alineación, aún puede equilibrar ganancias y pérdidas, lo que indica que la fijación de precios inicial realmente dejó espacio, ahora se considera que vuelve a ser razonable

Ver originalResponder0

Temas de actualidad
Ver más
#
StockTradingChallengeUpTo17000U
16.28M Popularidad
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
831.03K Popularidad
#
IsraelStrikesIranBTCPlunges
49.77K Popularidad
#
GatePredictionMarketAddsSmartMoneyTracking
13.24M Popularidad
#
MicronMarketCapBreaks1Trillion
44.34K Popularidad

Fijado

Luofuli revela la carta secreta de reducción de costos de MiMo: el cálculo de atención de prellenado se reduce a un nivel global GQA de 10 capas

Temas de actualidad

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Fijado