Mars Finance News 30 mai – Selon nos informations, Xiaomi a officiellement publié le plan d'optimisation de toute la chaîne du système d'inférence de la série MiMo-V2.5. L'équipe a reconstruit de manière systématique toute la pile d'inférence, allant de la gestion du cache KV, du cache hiérarchique, du cache de préfixe jusqu'aux stratégies de planification et aux liens Prefill/Decode, en se concentrant sur une architecture composite hybride SWA + MoE + multimodale. La compression du stockage KVCache a été réduite à environ 1/7 de la solution de niveau équivalent, ce qui a considérablement réduit le coût d'inférence dans les scénarios de longues séquences — c'est la base technologique clé de cette réduction de prix. Le 27 mai, l'API de la série MiMo-V2.5 a été définitivement réduite de prix, avec une baisse maximale de 99 %, sans distinction de longueur d'entrée. (Observation à large angle)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

9 J'aime

Récompense
9
9
1
Partager

Commentaire

Ajouter un commentaire

GasFeesForNightRuns

· Il y a 11h

Xiaomi a réduit ses coûts de raisonnement à un point critique, une baisse de 99 % est-elle sérieuse ?

Voir l'originalRépondre0

QueuePosition

· Il y a 11h

De la puce au cadre en passant par la tarification de l'API, toute la chaîne est intégrée, la stratégie de Xiaomi ressemble beaucoup à celle de l'époque sur le marché des téléphones mobiles axée sur le rapport qualité-prix.

Voir l'originalRépondre0

PerpColdHands

· Il y a 12h

Attendre une preuve concrète, si le ratio de compression de 1/7 du KVCache est vrai, le goulot d'étranglement de la mémoire vidéo pourra être soulagé.

Voir l'originalRépondre0

TheRedTelephoneBoothInTheRuins

· Il y a 12h

Architecture MoE + attention SWA, cette configuration est également parmi les premières dans le domaine open source, Xiaomi a cette fois dévoilé la technologie de manière très claire

Voir l'originalRépondre0

BlueLakeOverlooker

· Il y a 12h

La structure des coûts de raisonnement a changé, le point de référence des prix pour les applications en aval doit également être réévalué, tout l'écosystème pourrait devoir être rebattu.

Voir l'originalRépondre0

ResilientGoldfish

· Il y a 12h

Ne pas distinguer la longueur de l'entrée est très puissant, les utilisateurs de longs textes sont ravis, ils n'ont plus besoin de calculer minutieusement les tokens.

Voir l'originalRépondre0

GlassDomeUniverse

· Il y a 12h

Le chemin de pré-remplissage/décodage a été modifié, la conception du cache hiérarchique + cache de préfixe est très détaillée, il semble avoir été vraiment affiné par des cas d'utilisation réels.

Voir l'originalRépondre0

SecondaryMarketDeserter

· Il y a 12h

Xiaomi veut-elle rendre l'inférence de grands modèles aussi bon marché que du chou ?
Réduire le prix de l'API de 99 % pour que les autres ne puissent pas suivre

Voir l'originalRépondre0

Semi-MeltedIceCream

· Il y a 12h

Le 27 mai, réduction de prix permanente, sans distinction de longueur d'entrée — cette stratégie de tarification bouleverse directement l'ancienne méthode de facturation au token.

Voir l'originalRépondre0

Afficher plus

Sujets populaires
Afficher plus
#
WinGoldBarsWithGrowthPoints
1.22M Popularité
#
WTICrudeFallsBelow90Dollars
1.18M Popularité
#
IsraelStrikesIranBTCPlunges
51.36K Popularité
#
StockTradingChallengeUpTo17000U
188.07K Popularité
#
USIranNegotiationGame
9.41M Popularité

Épinglé

Détails techniques de l'optimisation de toute la chaîne du système d'inférence du modèle MiMo de Xiaomi pour la première fois en public

Sujets populaires

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Épinglé