Cursor Revela a Tecnologia de Otimização de Inferência MoE Warp Decode, Alcançando uma Melhoria de 1,84x na Vazão na GPU Blackwell

robot
Geração do resumo em andamento
De acordo com a monitorização da 1M AI News, a ferramenta de programação em IA Cursor lançou um blog técnico que apresenta o seu método de aceleração de inferência MoE (Mixture of Experts) desenvolvido por si, denominado Warp Decode. Este método visa cenários de geração de tokens com lotes pequenos na GPU Blackwell da NVIDIA, invertendo a estratégia de paralelismo tradicional centrada nos especialistas para uma abordagem centrada na saída: cada warp (a menor unidade de escalonamento composta por 32 unidades de processamento em paralelo) na GPU fica responsável por calcular um único valor de saída, percorrendo de forma independente todos os especialistas encaminhados e concluindo a acumulação em registos sem qualquer sincronização entre warps ou buffers intermédios. O pipeline de inferência MoE tradicional é composto por 8 etapas, das quais 5 servem apenas para mover dados para vistas dos especialistas, sem realizar computações reais. O Warp Decode comprime toda a camada de computação MoE em 2 kernels CUDA, eliminando etapas intermédias como padding, scattering e merging, reduzindo mais de 32KB de leituras/escritas de buffers intermédios por token. Testado na GPU NVIDIA B200 com um modelo do tipo Qwen-3, o Warp Decode alcançou uma melhoria de 1,84x na taxa de decodificação ponta a ponta, e, como faz as computações inteiramente com precisão BF16/FP32, evitou perdas por quantização intermédia, resultando numa precisão de saída 1,4 vezes mais próxima do benchmark FP32 em comparação com percursos tradicionais. Em termos de utilização da largura de banda de hardware, com um tamanho de lote de 32, sustentou uma taxa de transferência de 3,95 TB/s, aproximadamente 58% da largura de banda de pico da B200 (6,8 TB/s). Esta otimização acelera diretamente a iteração de desenvolvimento e o ritmo de lançamento de versões do modelo de programação desenvolvido pela própria Cursor, o Composer.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários