Futuros
Aceda a centenas de contratos perpétuos
TradFi
Ouro
Plataforma de ativos tradicionais globais
Opções
Hot
Negoceie Opções Vanilla ao estilo europeu
Conta Unificada
Maximize a eficiência do seu capital
Negociação de demonstração
Introdução à negociação de futuros
Prepare-se para a sua negociação de futuros
Eventos de futuros
Participe em eventos para recompensas
Negociação de demonstração
Utilize fundos virtuais para experimentar uma negociação sem riscos
Lançamento
CandyDrop
Recolher doces para ganhar airdrops
Launchpool
Faça staking rapidamente, ganhe potenciais novos tokens
HODLer Airdrop
Detenha GT e obtenha airdrops maciços de graça
Pre-IPOs
Desbloquear acesso completo a IPO de ações globais
Pontos Alpha
Negoceie ativos on-chain para airdrops
Pontos de futuros
Ganhe pontos de futuros e receba recompensas de airdrop
Investimento
Simple Earn
Ganhe juros com tokens inativos
Investimento automático
Invista automaticamente de forma regular.
Investimento Duplo
Aproveite a volatilidade do mercado
Soft Staking
Ganhe recompensas com staking flexível
Empréstimo de criptomoedas
0 Fees
Dê em garantia uma criptomoeda para pedir outra emprestada
Centro de empréstimos
Centro de empréstimos integrado
Cursor Revela a Tecnologia de Otimização de Inferência MoE Warp Decode, Alcançando uma Melhoria de 1,84x na Vazão na GPU Blackwell
De acordo com a monitorização da 1M AI News, a ferramenta de programação em IA Cursor lançou um blog técnico que apresenta o seu método de aceleração de inferência MoE (Mixture of Experts) desenvolvido por si, denominado Warp Decode. Este método visa cenários de geração de tokens com lotes pequenos na GPU Blackwell da NVIDIA, invertendo a estratégia de paralelismo tradicional centrada nos especialistas para uma abordagem centrada na saída: cada warp (a menor unidade de escalonamento composta por 32 unidades de processamento em paralelo) na GPU fica responsável por calcular um único valor de saída, percorrendo de forma independente todos os especialistas encaminhados e concluindo a acumulação em registos sem qualquer sincronização entre warps ou buffers intermédios. O pipeline de inferência MoE tradicional é composto por 8 etapas, das quais 5 servem apenas para mover dados para vistas dos especialistas, sem realizar computações reais. O Warp Decode comprime toda a camada de computação MoE em 2 kernels CUDA, eliminando etapas intermédias como padding, scattering e merging, reduzindo mais de 32KB de leituras/escritas de buffers intermédios por token. Testado na GPU NVIDIA B200 com um modelo do tipo Qwen-3, o Warp Decode alcançou uma melhoria de 1,84x na taxa de decodificação ponta a ponta, e, como faz as computações inteiramente com precisão BF16/FP32, evitou perdas por quantização intermédia, resultando numa precisão de saída 1,4 vezes mais próxima do benchmark FP32 em comparação com percursos tradicionais. Em termos de utilização da largura de banda de hardware, com um tamanho de lote de 32, sustentou uma taxa de transferência de 3,95 TB/s, aproximadamente 58% da largura de banda de pico da B200 (6,8 TB/s). Esta otimização acelera diretamente a iteração de desenvolvimento e o ritmo de lançamento de versões do modelo de programação desenvolvido pela própria Cursor, o Composer.