Le côté obscur de la lune et la nouvelle publication de Tsinghua : la pré-remplissage LLM peut traverser plusieurs centres de données, avec un débit de modèle de 1T augmentant de 54 %

robot
Création du résumé en cours
ME News Actualités, le 18 avril (UTC+8), selon la surveillance de Dongcha Beating, Moonshot AI et l'Université Tsinghua ont publié le 16 avril sur arXiv un nouveau papier intitulé « Prefill-as-a-Service », proposant de faire fonctionner la phase de pré-remplissage (prefill) de l'inférence de grands modèles à travers plusieurs centres de données.
L'inférence de grands modèles se divise en deux étapes : le prefill lit une fois toutes les entrées et génère un cache KV ; le décode (decode) sort ensuite le résultat caractère par caractère en utilisant ce cache.
Les caractéristiques matérielles nécessaires pour ces deux étapes sont totalement différentes : le prefill consomme beaucoup de puissance de calcul, tandis que le décode nécessite une grande mémoire vidéo et une large bande passante.
La pratique courante dans l'industrie consiste à séparer ces deux étapes sur des machines différentes (séparation PD), mais cela exige une interconnexion RDMA dans le même centre de données, car le cache KV des modèles à attention dense peut atteindre plusieurs dizaines de Gbps par seconde, et si la transmission est lente, le GPU reste inactif.
Le tournant vient avec la nouvelle génération de modèles à attention hybride.
Les modèles tels que Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T ont été testés, utilisant une combinaison de quelques couches d'attention complètes et de nombreuses couches linéaires, réduisant le débit du cache KV d'environ un ordre de grandeur, avec un ratio de compression global de 36 fois pour Ring-2.5-1T.
À ce moment-là, le cache KV peut être transféré du réseau privé RDMA vers un réseau Ethernet ordinaire pour le décode.
La méthode spécifique de PrfaaS consiste à constituer un « cluster de pré-remplissage » dédié, ne router que les requêtes avec de longs contextes ou des préfixes non trouvés, tandis que les requêtes courtes restent dans le cluster PD local ;
une fois le pré-remplissage terminé, le cache KV est renvoyé via Ethernet au cluster local pour le décode.
Elle introduit également un routage basé sur un seuil de longueur, un ordonnanceur sensible à la bande passante et un pool de cache de préfixes hybrides.
Les tests réalisés avec un modèle hybride interne de 1T paramètres (basé sur l'architecture Kimi Linear) ont montré que la capacité de service globale était supérieure de 54 % à celle d’un déploiement PD homogène, et de 32 % par rapport à une solution hétérogène naïve, tout en utilisant une bande passante inter-centre de données modérée par machine.
(Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 9
  • 2
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
YieldNotYell
· Il y a 1h
La conception de la routage par seuil de longueur est très détaillée, traiter séparément les requêtes longues et courtes est la véritable optimisation.
Voir l'originalRépondre0
CircuitDaydreamer
· Il y a 4h
Étude approfondie d'un article sur le modèle d'attention hybride réduisant le débit du cache KV, détails techniques, etc.
Voir l'originalRépondre0
AirdropCartographer
· Il y a 5h
Une augmentation de 54 % est vraiment attrayante, mais comment gérer la gigue lorsque l'on traverse des centres de données via Ethernet ?
Voir l'originalRépondre0
DeepSeaColdStart
· Il y a 5h
Seules les requêtes non trouvées par la route, le taux de cache hit devient le goulot d'étranglement clé
Voir l'originalRépondre0
UnderTheGlassDome
· Il y a 5h
PD homogène vs PD hétérogène vs PrfaaS, cette dimension de comparaison est assez astucieuse
Voir l'originalRépondre0
BluePeonyCalmingAgent
· Il y a 5h
1T paramètre modèle, testez cela, le coût matériel n'ose pas imaginer
Voir l'originalRépondre0
GateUser-fb035825
· Il y a 5h
Le déploiement indépendant de la collection pré-remplie augmente la complexité de la maintenance, le bénéfice en vaut-il la peine ?
Voir l'originalRépondre0
IdleFishDaoMember
· Il y a 5h
La planification basée sur la perception de la bande passante semble simple, mais sa mise en œuvre pratique comporte probablement de nombreux pièges.
Voir l'originalRépondre0
GateUser-aa277334
· Il y a 5h
Cette idée est intéressante, en envoyant le pré-remplissage à l'extrémité distante, en se concentrant localement sur le décodage, la latence peut-elle supporter cela ?
Voir l'originalRépondre0
Afficher plus
  • Épinglé