Kimi a découpé Prefill/Decode pour le faire fonctionner à travers plusieurs centres de données,


Une fois le goulot d'étranglement du transfert du cache KV éliminé,
le coût de l'inférence peut-il vraiment être réduit ?
Cette fois, il y a du lourd
Voir l'original
MeNews
Moonshot AI étend la technologie de découplage Prefill/Decode aux centres de données interconnectés et au matériel hétérogène
ME News Actualités, le 18 avril (UTC+8), l'équipe Moonshot AI a récemment annoncé que sa technologie de découplage entre Pré-remplissage (Prefill) et Décodage (Decode) a été avec succès étendue d'un seul cluster à des environnements multi-centres de données et matériels hétérogènes. Selon l'article, cette démarche pourrait réduire considérablement le coût d'inférence par token. Auparavant, l'expansion de cette technologie était entravée par les coûts de transmission du cache KV. La réalisation de cette avancée repose principalement sur leur modèle hybride Kimi.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé