Kimi, cette déconnexion inter-centres de données a quelque chose de spécial, réduire le coût de raisonnement est vraiment bénéfique pour tous

Voir l'original
MeNews
Moonshot AI étend la technologie de découplage Prefill/Decode aux centres de données interconnectés et au matériel hétérogène
ME News Actualités, le 18 avril (UTC+8), l'équipe Moonshot AI a récemment annoncé que sa technologie de découplage entre Pré-remplissage (Prefill) et Décodage (Decode) a été avec succès étendue d'un seul cluster à des environnements multi-centres de données et matériels hétérogènes. Selon l'article, cette démarche pourrait réduire considérablement le coût d'inférence par token. Auparavant, l'expansion de cette technologie était entravée par les coûts de transmission du cache KV. La réalisation de cette avancée repose principalement sur leur modèle hybride Kimi.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé