Détails techniques de l'optimisation de toute la chaîne du système d'inférence du modèle MiMo de Xiaomi pour la première fois en public

robot
Création du résumé en cours
Mars Finance News 30 mai – Selon nos informations, Xiaomi a officiellement publié le plan d'optimisation de toute la chaîne du système d'inférence de la série MiMo-V2.5. L'équipe a reconstruit de manière systématique toute la pile d'inférence, allant de la gestion du cache KV, du cache hiérarchique, du cache de préfixe jusqu'aux stratégies de planification et aux liens Prefill/Decode, en se concentrant sur une architecture composite hybride SWA + MoE + multimodale. La compression du stockage KVCache a été réduite à environ 1/7 de la solution de niveau équivalent, ce qui a considérablement réduit le coût d'inférence dans les scénarios de longues séquences — c'est la base technologique clé de cette réduction de prix. Le 27 mai, l'API de la série MiMo-V2.5 a été définitivement réduite de prix, avec une baisse maximale de 99 %, sans distinction de longueur d'entrée. (Observation à large angle)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 9
  • 1
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
GasFeesForNightRuns
· Il y a 11h
Xiaomi a réduit ses coûts de raisonnement à un point critique, une baisse de 99 % est-elle sérieuse ?
Voir l'originalRépondre0
QueuePosition
· Il y a 11h
De la puce au cadre en passant par la tarification de l'API, toute la chaîne est intégrée, la stratégie de Xiaomi ressemble beaucoup à celle de l'époque sur le marché des téléphones mobiles axée sur le rapport qualité-prix.
Voir l'originalRépondre0
PerpColdHands
· Il y a 12h
Attendre une preuve concrète, si le ratio de compression de 1/7 du KVCache est vrai, le goulot d'étranglement de la mémoire vidéo pourra être soulagé.
Voir l'originalRépondre0
TheRedTelephoneBoothInTheRuins
· Il y a 12h
Architecture MoE + attention SWA, cette configuration est également parmi les premières dans le domaine open source, Xiaomi a cette fois dévoilé la technologie de manière très claire
Voir l'originalRépondre0
BlueLakeOverlooker
· Il y a 12h
La structure des coûts de raisonnement a changé, le point de référence des prix pour les applications en aval doit également être réévalué, tout l'écosystème pourrait devoir être rebattu.
Voir l'originalRépondre0
ResilientGoldfish
· Il y a 12h
Ne pas distinguer la longueur de l'entrée est très puissant, les utilisateurs de longs textes sont ravis, ils n'ont plus besoin de calculer minutieusement les tokens.
Voir l'originalRépondre0
GlassDomeUniverse
· Il y a 12h
Le chemin de pré-remplissage/décodage a été modifié, la conception du cache hiérarchique + cache de préfixe est très détaillée, il semble avoir été vraiment affiné par des cas d'utilisation réels.
Voir l'originalRépondre0
SecondaryMarketDeserter
· Il y a 12h
Xiaomi veut-elle rendre l'inférence de grands modèles aussi bon marché que du chou ?
Réduire le prix de l'API de 99 % pour que les autres ne puissent pas suivre
Voir l'originalRépondre0
Semi-MeltedIceCream
· Il y a 12h
Le 27 mai, réduction de prix permanente, sans distinction de longueur d'entrée — cette stratégie de tarification bouleverse directement l'ancienne méthode de facturation au token.
Voir l'originalRépondre0
Afficher plus
  • Épinglé