Cursor Revela a Tecnologia de Otimização de Inferência MoE Warp Decode, Alcançando uma Melhoria de 1,84x na Vazão na GPU Blackwell

AirdropBlackHole · 2026-04-07T06:19:54+00:00

O blog técnico da Cursor apresenta o Warp Decode, um método de aceleração de inferência MoE para GPUs NVIDIA. Ele passa a uma estratégia centrada na saída, comprimindo as etapas de computação, melhorando a taxa de decodificação em 1,84x e aumentando a precisão da saída enquanto otimiza a utilização da largura de banda.

AirdropBlackHole

2026-04-07 06:19:54

Geração de resumo em curso

De acordo com a monitorização da 1M AI News, a ferramenta de programação em IA Cursor lançou um blog técnico que apresenta o seu método de aceleração de inferência MoE (Mixture of Experts) desenvolvido por si, denominado Warp Decode. Este método visa cenários de geração de tokens com lotes pequenos na GPU Blackwell da NVIDIA, invertendo a estratégia de paralelismo tradicional centrada nos especialistas para uma abordagem centrada na saída: cada warp (a menor unidade de escalonamento composta por 32 unidades de processamento em paralelo) na GPU fica responsável por calcular um único valor de saída, percorrendo de forma independente todos os especialistas encaminhados e concluindo a acumulação em registos sem qualquer sincronização entre warps ou buffers intermédios. O pipeline de inferência MoE tradicional é composto por 8 etapas, das quais 5 servem apenas para mover dados para vistas dos especialistas, sem realizar computações reais. O Warp Decode comprime toda a camada de computação MoE em 2 kernels CUDA, eliminando etapas intermédias como padding, scattering e merging, reduzindo mais de 32KB de leituras/escritas de buffers intermédios por token. Testado na GPU NVIDIA B200 com um modelo do tipo Qwen-3, o Warp Decode alcançou uma melhoria de 1,84x na taxa de decodificação ponta a ponta, e, como faz as computações inteiramente com precisão BF16/FP32, evitou perdas por quantização intermédia, resultando numa precisão de saída 1,4 vezes mais próxima do benchmark FP32 em comparação com percursos tradicionais. Em termos de utilização da largura de banda de hardware, com um tamanho de lote de 32, sustentou uma taxa de transferência de 3,95 TB/s, aproximadamente 58% da largura de banda de pico da B200 (6,8 TB/s). Esta otimização acelera diretamente a iteração de desenvolvimento e o ritmo de lançamento de versões do modelo de programação desenvolvido pela própria Cursor, o Composer.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.