Cursor dévoile la technologie d'optimisation de l'inférence MoE Warp Decode, permettant une amélioration du débit de 1,84x sur le GPU Blackwell

robot
Création du résumé en cours
Selon la surveillance effectuée par 1M AI News, l’outil de programmation d’IA Cursor a publié un billet technique présentant sa méthode d’accélération de l’inférence MoE (Mixture of Experts) développée en interne, baptisée Warp Decode. Cette méthode vise les scénarios de génération de jetons avec petits lots sur le GPU Blackwell de NVIDIA, en inversant la stratégie de parallélisme centrée sur les experts au profit d’une approche centrée sur la sortie : chaque warp (la plus petite unité de planification, composée de 32 unités de traitement parallèles) sur le GPU est chargée de calculer une seule valeur de sortie, en parcourant indépendamment tous les experts routés et en effectuant l’accumulation dans des registres, sans synchronisation entre warps ni tampons intermédiaires. Le pipeline d’inférence MoE traditionnel se compose de 8 étapes, dont 5 servent uniquement à déplacer les données pour les vues des experts sans effectuer de calculs réels. Warp Decode compresse l’ensemble de la couche de calcul MoE en 2 kernels CUDA, éliminant des étapes intermédiaires telles que le padding, la dispersion (scattering) et la fusion (merging), réduisant de plus de 32KB par jeton les lectures/écritures vers le tampon intermédiaire. Testée sur le GPU NVIDIA B200 avec un modèle de type Qwen-3, Warp Decode a atteint une amélioration de 1,84x du débit de décodage bout en bout, et, comme les calculs sont entièrement effectués en précision BF16/FP32, elle a évité les pertes liées à la quantification intermédiaire, ce qui a abouti à une exactitude de sortie 1,4 fois plus proche de la référence FP32 que les parcours traditionnels. En ce qui concerne l’utilisation de la bande passante matérielle, avec une taille de lot de 32, elle a maintenu un débit de 3,95 TB/s, soit environ 58% de la bande passante maximale du B200 (6,8 TB/s). Cette optimisation accélère directement le rythme d’itération de développement et de publication des versions du modèle de programmation développé en interne de Cursor, Composer.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé