La puissance de calcul du modèle à 70 couches égalise celle des petits modèles traditionnels, la conception architecturale de GA/SWA en 1:7 a du potentiel

Voir l'original
BlockBeatNews
Lofli dévoile la carte secrète de la réduction des coûts de MiMo : le calcul de l'attention pré-remplie réduit à un niveau global GQA de 10 couches
Xiaomi MiMo-V2.5 Après la baisse de prix permanente de l'API, annonce une réduction des coûts grâce à une attention hybride et une mise en cache hiérarchique des clés/valeurs : une augmentation significative des taux de cache et de capacité, une réduction importante des coûts de cache, combinée à un chevauchement de cache pour réduire davantage les dépenses. Les coûts d'entrée et de sortie diminuent de 60 à 80 %, car le rapport entre la couche GA/SWA est de 1:7, la phase de pré-remplissage ne calcule que la fenêtre locale, rendant la puissance de calcul d'un modèle à 70 couches comparable à celle d'un modèle traditionnel avec moins de couches. La réduction des prix est une réduction structurelle des coûts, prônant une collaboration entre l'algorithme de base et le système d'inférence pour contrôler conjointement les coûts, évitant ainsi la guerre des prix.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé