Moonshot AI étend la technologie de découplage Prefill/Decode aux centres de données interconnectés et au matériel hétérogène

ME News Actualités, le 18 avril (UTC+8), l'équipe Moonshot AI a récemment annoncé que sa technologie de découplage entre Pré-remplissage (Prefill) et Décodage (Decode) a été avec succès étendue d'un seul cluster à des environnements multi-centres de données et matériels hétérogènes. Selon l'article, cette démarche pourrait réduire de manière significative le coût d'inférence par token. Auparavant, l'extension de cette technologie était entravée par les coûts de transmission du cache KV. La réalisation de cette avancée repose principalement sur leur modèle hybride Kimi Linear. (Source : InFoQ)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 5
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
EchoOfL2
· Il y a 3h
Passer d'un seul cluster à plusieurs centres de données, cette étape est-elle suffisamment grande, la stabilité a-t-elle été vérifiée ?
Voir l'originalRépondre0
AirdropSideQuest
· Il y a 7h
L'adaptation à du matériel hétérogène est la tâche la plus difficile, et si Moonshot peut le gérer, cela prouve que l'équipe infra est compétente.
Voir l'originalRépondre0
SugarAirdropDream
· Il y a 7h
Le coût est la clé pour la mise en œuvre de l'IA, cette idée de découplage entre Pré-remplissage et Décodage, d'autres équipes de grands modèles ont probablement déjà commencé à l'étudier toute la nuit.
Voir l'originalRépondre0
GlitchOrchard
· Il y a 7h
Kimi cette avancée technologique est vraiment impressionnante, elle permet de maintenir une faible latence même en traversant plusieurs centres de données, les coûts ont diminué, ce qui ouvre de plus grandes perspectives pour la couche applicative
Voir l'originalRépondre0
MoonlightMineralWater
· Il y a 7h
La réduction du coût par token signifie que même les développeurs de petite et moyenne taille peuvent désormais utiliser un contexte long, ce qui est une bonne chose.
Voir l'originalRépondre0
  • Épinglé