Le côté obscur de la lune et la nouvelle publication de Tsinghua : la pré-remplissage LLM peut traverser plusieurs centres de données, le débit du modèle de 1T augmente de 54 %

robot
Création du résumé en cours
ME News Actualités, le 18 avril (UTC+8), selon la surveillance de Dongcha Beating, Moonshot AI et l'Université Tsinghua ont publié le 16 avril sur arXiv un nouveau papier intitulé « Prefill-as-a-Service », proposant de faire fonctionner la phase de pré-remplissage (prefill) de l'inférence de grands modèles à travers plusieurs centres de données.
L'inférence de grands modèles se divise en deux étapes : le prefill lit une fois toutes les entrées et génère un cache KV ; le décode utilise ensuite ce cache pour produire le résultat mot par mot.
Les caractéristiques matérielles nécessaires pour ces deux étapes sont totalement différentes : le prefill consomme beaucoup de puissance de calcul, le décode nécessite une grande mémoire vidéo et une large bande passante.
La pratique courante dans l'industrie consiste à séparer ces deux étapes sur des machines différentes (séparation PD), mais cela exige une interconnexion RDMA dans le même centre de données, car le cache KV des modèles d'attention intensive peut atteindre plusieurs dizaines de Gbps par seconde, et si la transmission est lente, le GPU reste inactif.
La révolution vient de la nouvelle génération de modèles d'attention hybride.
Les expérimentations montrent que des modèles comme Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T, en combinant quelques couches d'attention complètes avec de nombreuses couches linéaires, ont réduit le débit du cache KV d'environ un ordre de grandeur, avec un ratio de compression global de 36 fois pour Ring-2.5-1T.
À ce moment-là, le cache KV peut être transféré du réseau privé RDMA vers un réseau Ethernet standard pour le décode.
La méthode spécifique de PrfaaS consiste à constituer un « cluster de pré-remplissage » indépendant, qui ne route que les requêtes avec de longs contextes ou des préfixes non trouvés, tandis que les requêtes courtes restent dans le cluster PD local ; après le pré-remplissage, le cache KV est renvoyé via Ethernet au cluster local pour le décode.
Elle introduit également un routage basé sur un seuil de longueur, un ordonnanceur sensible à la bande passante et un pool de cache de préfixes hybrides.
Les expérimentations ont été réalisées avec un modèle hybride interne de 1T paramètres (basé sur l'architecture Kimi Linear), montrant que la capacité de service globale dépasse de 54 % celle d'une déploiement PD homogène, et de 32 % par rapport à une solution hétérogène naïve, tout en utilisant une bande passante inter-centre modérée par machine.
(Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 9
  • 2
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
VolatilityOfToastingBread
· Il y a 2h
Une courte demande de conserver le PD local est tout à fait raisonnable, après tout, la sensibilité à la latence, seul un contexte long vaut la peine de se compliquer.
Voir l'originalRépondre0
DustCollector
· Il y a 4h
L'amélioration hétérogène simple de 32 %, l'amélioration PD homogène de 54 %, la configuration du groupe de comparaison est assez solide.
Voir l'originalRépondre0
Glass-HeartMarketMaker
· Il y a 4h
Tsinghua + l'aspect obscur de la lune, l'infrastructure du grand modèle national commence à rivaliser pour la première place mondiale
Voir l'originalRépondre0
StainedGlassSolarArray
· Il y a 4h
L'opération de Yue An est assez intéressante, en rejetant la pré-remplissage, en se concentrant localement sur le décodage, gagnant à la fois en délai et en coût
Voir l'originalRépondre0
MirrorBallReflection
· Il y a 4h
Le modèle d'attention hybride est au cœur, le cache KV peut être transmis via Ethernet, quel est le taux de compression ?
Voir l'originalRépondre0
PineNeedlesAndColdWind
· Il y a 4h
La planification basée sur la perception de la bande passante semble simple, mais en réalité, sa mise en œuvre est pleine d'obstacles, et ils ont réussi à la réaliser.
Voir l'originalRépondre0
GoldfishUnderTheIce
· Il y a 5h
Le modèle de 1T de paramètres fonctionne parfaitement, ce qui indique que cette architecture n'a pas de problème de scalabilité, ce n'est pas une petite affaire.
Voir l'originalRépondre0
MarginMoth
· Il y a 5h
PrfaaS, ce nom est une abréviation de Prefill as a Service, le cloud computing a été transféré à l'inférence de grands modèles
Voir l'originalRépondre0
GateUser-78acf617
· Il y a 5h
54 % d'augmentation du débit, ces chiffres sont rassurants, l'architecture hétérogène n'est enfin plus une simple théorie
Voir l'originalRépondre0
Afficher plus
  • Épinglé