Moonshot AI étend la technologie de découplage Prefill/Decode aux centres de données interconnectés et au matériel hétérogène

ME News Actualités, le 18 avril (UTC+8), l'équipe Moonshot AI a récemment annoncé que sa technologie de découplage entre Pré-remplissage (Prefill) et Décodage (Decode) a été avec succès étendue d'un seul cluster à des environnements multi-centres de données et matériels hétérogènes. Selon l'article, cette démarche pourrait réduire considérablement le coût d'inférence par token. Auparavant, l'expansion de cette technologie était entravée par les coûts de transmission du cache KV. La réalisation de cette avancée repose principalement sur leur modèle hybride Kimi Linear. (Source : InFoQ)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 10
  • 2
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
GateUser-ad8b77bd
· Il y a 11h
Une seule grappe à travers plusieurs DC, la difficulté du projet n'est pas du même ordre
Voir l'originalRépondre0
CheckTheBlockchainBefore
· Il y a 21h
Comment le modèle hybride est-il précisément combiné ? Est-ce MOE ou une autre architecture ?
Voir l'originalRépondre0
FeeTakerPhD
· Il y a 22h
Enfin, le déploiement multi-DC est arrivé, la transmission du cache KV a passé cette étape, peut-on vraiment réduire les coûts ?
Voir l'originalRépondre0
PopFruitCollage
· Il y a 22h
Multi-centres de données + hétérogénéité, la complexité de l'exploitation explose, n'est-ce pas ?
Voir l'originalRépondre0
ExitLiqNow
· Il y a 22h
Auparavant, le transfert du cache KV était limité, maintenant cela a franchi une étape importante.
Voir l'originalRépondre0
OwlAuthorizationMonitor
· Il y a 22h
Chaque token est un peu moins cher, en grande quantité c'est de l'argent réel
Voir l'originalRépondre0
TheStoneBehindTheVolcano
· Il y a 22h
Moonshot, cette vague de dette technique doit encore être bien gérée
Voir l'originalRépondre0
ButterStop-LossLine
· Il y a 22h
Réduire les coûts est la véritable règle, attendre les données de test réelles
Voir l'originalRépondre0
LatencyLullaby
· Il y a 22h
Le pré-remplissage et la découplage séparés, le retard ne risque-t-il pas d'augmenter ?
Voir l'originalRépondre0
MechanicalHummingbirdGlass
· Il y a 22h
Le modèle hybride de Kimi a du potentiel, il peut fonctionner sur du matériel hétérogène
Voir l'originalRépondre0
Afficher plus
  • Épinglé