Cursor publie la technologie d'optimisation de l'inférence MoE Warp Decode, augmentant le débit de 1,84 fois sur le GPU Blackwell

BlockBeatNews · 2026-04-07T01:21:09+00:00

Cursor a publié un nouveau blog technique présentant sa méthode d'accélération de l'inférence MoE, Warp Decode. Cette méthode optimise la génération de tokens en petits lots sur le GPU NVIDIA Blackwell, en réduisant la lecture et l'écriture des buffers intermédiaires, ce qui augmente le débit et la précision de sortie, accélérant directement le processus de développement de leur modèle de programmation.

BlockBeatNews

2026-04-07 01:21:09

Création du résumé en cours

D’après le suivi de 1M AI News, l’outil de programmation IA Cursor publie un billet technique de blog qui présente sa méthode d’accélération de l’inférence MoE (modèle à experts multiples) développée en interne, Warp Decode. Cette méthode cible les scénarios de génération de tokens en micro-lots sur les GPU Nvidia Blackwell : elle inverse la stratégie de parallélisation traditionnelle centrée sur les experts pour adopter une approche centrée sur la sortie. Ainsi, dans le GPU, chaque warp (unité minimale de planification composée de 32 unités de traitement en parallèle) ne calcule qu’une seule valeur de sortie, parcourt indépendamment tous les experts auxquels les données sont routées, et effectue l’accumulation dans des registres, sans aucune synchronisation inter-warp ni tampon intermédiaire.

Le pipeline d’inférence MoE traditionnel comporte 8 étapes, dont 5 servent uniquement au transfert de données vers les vues des experts, sans effectuer de calculs réels. Warp Decode comprime l’ensemble de la couche de calcul MoE en seulement 2 kernels CUDA, en supprimant les étapes intermédiaires comme le remplissage, la dispersion, la fusion, etc. Pour chaque token, cela réduit de plus de 32KB les lectures et écritures de tampons intermédiaires.

Sur un GPU Nvidia B200, avec des tests réels sur un modèle de type Qwen-3, Warp Decode parvient à augmenter le débit de décodage de bout en bout de 1,84 fois. De plus, comme l’exécution se fait tout au long avec des calculs en précision BF16/FP32 et qu’elle évite les pertes dues à la quantification des quantités intermédiaires, la précision de sortie est proche d’un facteur 1,4 par rapport à la référence FP32. En termes d’utilisation de la bande passante matérielle, pour une taille de lot de 32, le débit soutenu atteint 3,95 TB/s, soit environ 58% de la bande passante de crête du B200 (6,8 TB/s). Cette optimisation accélère directement le cycle de développement et l’rythme de publication des versions du modèle de programmation développé en interne par Cursor, Composer.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

2 J'aime