Cursor presenta la tecnología de optimización de inferencia MoE Inference Optimization Technology Warp Decode Warp Decode, logrando una mejora de rendimiento de 1.84x en la GPU Blackwell

AirdropBlackHole · 2026-04-07T06:19:54+00:00

El blog técnico de Cursor presenta Warp Decode, un método de aceleración de inferencia MoE para GPUs NVIDIA. Cambia a una estrategia centrada en la salida, comprimiendo las etapas de cálculo, mejorando la capacidad de decodificación en 1.84x y aumentando la precisión de la salida, al mismo tiempo que optimiza el uso del ancho de banda.

AirdropBlackHole

2026-04-07 06:19:54

Generación de resúmenes en curso

Según el monitoreo de 1M AI News, la herramienta de programación de IA Cursor ha publicado un blog técnico que presenta su método de aceleración de inferencia MoE (Mixture of Experts) desarrollado por ellos mismos, Warp Decode. Este método se enfoca en escenarios de generación de tokens con lotes pequeños en la GPU Blackwell de NVIDIA, invirtiendo la estrategia de paralelismo tradicional centrada en los expertos para adoptar un enfoque centrado en la salida: cada warp (la unidad mínima de planificación compuesta por 32 unidades de procesamiento en paralelo) en la GPU se encarga de calcular un único valor de salida, recorriendo de manera independiente todos los expertos enrutados y completando la acumulación en registros sin ninguna sincronización entre warps ni búferes intermedios. El pipeline tradicional de inferencia MoE consta de 8 etapas, 5 de las cuales se dedican únicamente a mover datos para las vistas de los expertos sin realizar cálculos reales. Warp Decode comprime toda la capa de cómputo MoE en 2 kernels CUDA, eliminando pasos intermedios como el relleno, el scattering y el merging, reduciendo más de 32KB de lecturas/escrituras de búfer intermedio por token. Probado en la GPU NVIDIA B200 con un modelo estilo Qwen-3, Warp Decode logró una mejora de 1.84x en el rendimiento de decodificación de extremo a extremo, y debido a que realiza todo el cómputo con precisión BF16/FP32, evitó pérdidas por cuantización intermedia, lo que dio como resultado una precisión de salida que está 1.4 veces más cerca del punto de referencia FP32 en comparación con las rutas tradicionales. En términos de utilización del ancho de banda de hardware, con un tamaño de lote de 32, mantuvo un rendimiento de 3.95 TB/s, aproximadamente el 58% del ancho de banda pico del B200 (6.8 TB/s). Esta optimización acelera directamente la velocidad de iteración del desarrollo y el ritmo de lanzamiento de versiones del modelo de programación desarrollado por Cursor, Composer.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.