ME News Actualités, le 18 avril (UTC+8), selon la surveillance de Dongcha Beating, Moonshot AI et l'Université Tsinghua ont publié le 16 avril sur arXiv un nouveau papier intitulé « Prefill-as-a-Service », proposant de faire fonctionner la phase de pré-remplissage (prefill) de l'inférence de grands modèles à travers plusieurs centres de données.
L'inférence de grands modèles se divise en deux étapes : le prefill lit une fois toutes les entrées et génère un cache KV ; le décode (decode) sort ensuite le résultat caractère par caractère en utilisant ce cache.
Les caractéristiques matérielles nécessaires pour ces deux étapes sont totalement différentes : le prefill consomme beaucoup de puissance de calcul, tandis que le décode nécessite une grande mémoire vidéo et une large bande passante.
La pratique courante dans l'industrie consiste à séparer ces deux étapes sur des machines différentes (séparation PD), mais cela exige une interconnexion RDMA dans le même centre de données, car le cache KV des modèles à attention dense peut atteindre plusieurs dizaines de Gbps par seconde, et si la transmission est lente, le GPU reste inactif.
Le tournant vient avec la nouvelle génération de modèles à attention hybride.
Les modèles tels que Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T ont été testés, utilisant une combinaison de quelques couches d'attention complètes et de nombreuses couches linéaires, réduisant le débit du cache KV d'environ un ordre de grandeur, avec un ratio de compression global de 36 fois pour Ring-2.5-1T.
À ce moment-là, le cache KV peut être transféré du réseau privé RDMA vers un réseau Ethernet ordinaire pour le décode.
La méthode spécifique de PrfaaS consiste à constituer un « cluster de pré-remplissage » dédié, ne router que les requêtes avec de longs contextes ou des préfixes non trouvés, tandis que les requêtes courtes restent dans le cluster PD local ;
une fois le pré-remplissage terminé, le cache KV est renvoyé via Ethernet au cluster local pour le décode.
Elle introduit également un routage basé sur un seuil de longueur, un ordonnanceur sensible à la bande passante et un pool de cache de préfixes hybrides.
Les tests réalisés avec un modèle hybride interne de 1T paramètres (basé sur l'architecture Kimi Linear) ont montré que la capacité de service globale était supérieure de 54 % à celle d’un déploiement PD homogène, et de 32 % par rapport à une solution hétérogène naïve, tout en utilisant une bande passante inter-centre de données modérée par machine.
(Source : BlockBeats)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

10 J'aime

Récompense
10
9
2
Partager

Commentaire

Ajouter un commentaire

YieldNotYell

· Il y a 1h

La conception de la routage par seuil de longueur est très détaillée, traiter séparément les requêtes longues et courtes est la véritable optimisation.

Voir l'originalRépondre0

CircuitDaydreamer

· Il y a 4h

Étude approfondie d'un article sur le modèle d'attention hybride réduisant le débit du cache KV, détails techniques, etc.

Voir l'originalRépondre0

AirdropCartographer

· Il y a 5h

Une augmentation de 54 % est vraiment attrayante, mais comment gérer la gigue lorsque l'on traverse des centres de données via Ethernet ?

Voir l'originalRépondre0

DeepSeaColdStart

· Il y a 5h

Seules les requêtes non trouvées par la route, le taux de cache hit devient le goulot d'étranglement clé

Voir l'originalRépondre0

UnderTheGlassDome

· Il y a 5h

PD homogène vs PD hétérogène vs PrfaaS, cette dimension de comparaison est assez astucieuse

Voir l'originalRépondre0

BluePeonyCalmingAgent

· Il y a 5h

1T paramètre modèle, testez cela, le coût matériel n'ose pas imaginer

Voir l'originalRépondre0

GateUser-fb035825

· Il y a 5h

Le déploiement indépendant de la collection pré-remplie augmente la complexité de la maintenance, le bénéfice en vaut-il la peine ?

Voir l'originalRépondre0

IdleFishDaoMember

· Il y a 5h

La planification basée sur la perception de la bande passante semble simple, mais sa mise en œuvre pratique comporte probablement de nombreux pièges.

Voir l'originalRépondre0

GateUser-aa277334

· Il y a 5h

Cette idée est intéressante, en envoyant le pré-remplissage à l'extrémité distante, en se concentrant localement sur le décodage, la latence peut-elle supporter cela ?

Voir l'originalRépondre0

Afficher plus

Sujets populaires
Afficher plus
#
WinGoldBarsWithGrowthPoints
1.2M Popularité
#
WTICrudeFallsBelow90Dollars
1.51M Popularité
#
IsraelStrikesIranBTCPlunges
51.23K Popularité
#
StockTradingChallengeUpTo17000U
171.86K Popularité
#
USIranNegotiationGame
9.4M Popularité

Épinglé

Le côté obscur de la lune et la nouvelle publication de Tsinghua : la pré-remplissage LLM peut traverser plusieurs centres de données, avec un débit de modèle de 1T augmentant de 54 %

Sujets populaires

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Épinglé