Selon la surveillance effectuée par 1M AI News, l’outil de programmation d’IA Cursor a publié un billet technique présentant sa méthode d’accélération de l’inférence MoE (Mixture of Experts) développée en interne, baptisée Warp Decode. Cette méthode vise les scénarios de génération de jetons avec petits lots sur le GPU Blackwell de NVIDIA, en inversant la stratégie de parallélisme centrée sur les experts au profit d’une approche centrée sur la sortie : chaque warp (la plus petite unité de planification, composée de 32 unités de traitement parallèles) sur le GPU est chargée de calculer une seule valeur de sortie, en parcourant indépendamment tous les experts routés et en effectuant l’accumulation dans des registres, sans synchronisation entre warps ni tampons intermédiaires. Le pipeline d’inférence MoE traditionnel se compose de 8 étapes, dont 5 servent uniquement à déplacer les données pour les vues des experts sans effectuer de calculs réels. Warp Decode compresse l’ensemble de la couche de calcul MoE en 2 kernels CUDA, éliminant des étapes intermédiaires telles que le padding, la dispersion (scattering) et la fusion (merging), réduisant de plus de 32KB par jeton les lectures/écritures vers le tampon intermédiaire. Testée sur le GPU NVIDIA B200 avec un modèle de type Qwen-3, Warp Decode a atteint une amélioration de 1,84x du débit de décodage bout en bout, et, comme les calculs sont entièrement effectués en précision BF16/FP32, elle a évité les pertes liées à la quantification intermédiaire, ce qui a abouti à une exactitude de sortie 1,4 fois plus proche de la référence FP32 que les parcours traditionnels. En ce qui concerne l’utilisation de la bande passante matérielle, avec une taille de lot de 32, elle a maintenu un débit de 3,95 TB/s, soit environ 58% de la bande passante maximale du B200 (6,8 TB/s). Cette optimisation accélère directement le rythme d’itération de développement et de publication des versions du modèle de programmation développé en interne de Cursor, Composer.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
SKHynixTopsKOSPIByMarketCap
390,57K Popularité
#
EthereumFoundationRestructuresForEfficiency
94,24M Popularité
#
IsraelStrikesIranBTCPlunges
62,41K Popularité
#
PredictWorldCup🇺🇸vs🇵🇾
964,56K Popularité
#
TradFiCFDGoldMaster
2,17M Popularité

Épinglé

Cursor dévoile la technologie d'optimisation de l'inférence MoE Warp Decode, permettant une amélioration du débit de 1,84x sur le GPU Blackwell

Sujets populaires

SKHynixTopsKOSPIByMarketCap

EthereumFoundationRestructuresForEfficiency

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

TradFiCFDGoldMaster

Épinglé