Moonshot AI étend la technologie de découplage Prefill/Decode aux centres de données interconnectés et au matériel hétérogène
ME News Actualités, le 18 avril (UTC+8), l'équipe Moonshot AI a récemment annoncé que sa technologie de découplage entre Pré-remplissage (Prefill) et Décodage (Decode) a été avec succès étendue d'un seul cluster à des environnements multi-centres de données et matériels hétérogènes. Selon l'article, cette démarche pourrait réduire considérablement le coût d'inférence par token. Auparavant, l'expansion de cette technologie était entravée par les coûts de transmission du cache KV. La réalisation de cette avancée repose principalement sur leur modèle hybride Kimi.