Moonshot AI étend la technologie de découplage Prefill/Decode aux centres de données interconnectés et au matériel hétérogène

ME News Actualités, le 18 avril (UTC+8), l'équipe Moonshot AI a récemment annoncé que sa technologie de découplage entre Pré-remplissage (Prefill) et Décodage (Decode) a été avec succès étendue d'un seul cluster à des environnements multi-centres de données et matériels hétérogènes. Selon l'article, cette démarche pourrait réduire considérablement le coût d'inférence par token. Auparavant, l'extension de cette technologie était entravée par les coûts de transmission du cache KV. La réalisation de cette avancée dépendait principalement de leur modèle hybride Kimi Linear. (Source : InFoQ)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 3
  • 1
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
PublicBlockchainUnderTheAurora
· Il y a 15h
Je suis curieux de savoir comment la latence inter-DC est gérée, le document n'en parle pas en détail.
Voir l'originalRépondre0
ExitLiquidityIntern
· Il y a 15h
L'architecture du modèle hybride semble être une variable clé, en attendant les détails techniques de première main
Voir l'originalRépondre0
GateUser-c1cab702
· Il y a 15h
Passer d'un seul cluster à plusieurs centres de données, la complexité du projet donne déjà mal à la tête rien qu'en y pensant
Voir l'originalRépondre0
  • Épinglé