Básico
Spot
Opera con criptomonedas libremente
Margen
Multiplica tus beneficios con el apalancamiento
Convertir e Inversión automática
0 Fees
Opera cualquier volumen sin tarifas ni deslizamiento
ETF
Obtén exposición a posiciones apalancadas de forma sencilla
Trading premercado
Opera nuevos tokens antes de su listado
Contrato
Accede a cientos de contratos perpetuos
TradFi
Oro
Plataforma global de activos tradicionales
Opciones
Hot
Opera con opciones estándar al estilo europeo
Cuenta unificada
Maximiza la eficacia de tu capital
Trading de prueba
Introducción al trading de futuros
Prepárate para operar con futuros
Eventos de futuros
Únete a eventos para ganar recompensas
Trading de prueba
Usa fondos virtuales para probar el trading sin asumir riesgos
Lanzamiento
CandyDrop
Acumula golosinas para ganar airdrops
Launchpool
Staking rápido, ¡gana nuevos tokens con potencial!
HODLer Airdrop
Holdea GT y consigue airdrops enormes gratis
Launchpad
Anticípate a los demás en el próximo gran proyecto de tokens
Puntos Alpha
Opera activos on-chain y recibe airdrops
Puntos de futuros
Gana puntos de futuros y reclama recompensas de airdrop
Inversión
Simple Earn
Genera intereses con los tokens inactivos
Inversión automática
Invierte automáticamente de forma regular
Inversión dual
Aprovecha la volatilidad del mercado
Staking flexible
Gana recompensas con el staking flexible
Préstamo de criptomonedas
0 Fees
Usa tu cripto como garantía y pide otra en préstamo
Centro de préstamos
Centro de préstamos integral
Centro de patrimonio VIP
Planes de aumento patrimonial prémium
Gestión patrimonial privada
Asignación de activos prémium
Quant Fund
Estrategias cuantitativas de alto nivel
Staking
Haz staking de criptomonedas para ganar en productos PoS
Apalancamiento inteligente
Apalancamiento sin liquidación
Acuñación de GUSD
Acuña GUSD y gana rentabilidad de RWA
Cursor publica la tecnología de optimización de inferencia MoE Warp Decode, que aumenta en 1.84 veces el rendimiento en GPU Blackwell
Según el monitoreo de 1M AI News, la herramienta de programación con IA Cursor publicó un blog técnico que presenta su método de aceleración de inferencia de MoE (modelo de mezcla de expertos) desarrollado internamente llamado Warp Decode. Este método está dirigido a escenarios de generación de tokens en lotes pequeños en GPU NVIDIA Blackwell y cambia la estrategia de paralelismo centrada en expertos a una centrada en la salida: en la GPU, cada warp (la unidad mínima de planificación compuesta por 32 unidades de procesamiento en paralelo) solo se encarga de calcular un valor de salida, recorre de forma independiente todos los expertos a los que se enruta y completa la acumulación en registros, sin necesidad de sincronización entre warps ni buffers intermedios.
El pipeline tradicional de inferencia MoE consta de 8 etapas, de las cuales 5 solo se usan para transportar datos para las vistas de los expertos, sin realizar cálculos reales. Warp Decode comprime toda la capa de cálculo MoE en 2 kernels CUDA, eliminando pasos intermedios como relleno (padding), dispersión (scatter) y fusión (gather); cada token reduce más de 32KB de lecturas y escrituras de buffers intermedios.
En pruebas en una GPU NVIDIA B200 con un modelo estilo Qwen-3, Warp Decode logra una mejora de 1.84 veces en el rendimiento de decodificación extremo a extremo, y además, al realizar cálculos en precisión BF16/FP32 durante todo el proceso y evitar pérdidas por cuantización intermedia, la precisión de salida se acerca en 1.4 veces al valor de referencia FP32 en comparación con la ruta tradicional. En cuanto a utilización del ancho de banda del hardware, con un tamaño de lote de 32, el rendimiento sostenido alcanza 3.95 TB/s, aproximadamente el 58% del ancho de banda pico del B200 (6.8 TB/s). Esta optimización acelera directamente el desarrollo iterativo del modelo de programación desarrollado internamente por Cursor, Composer, y el ritmo de publicación de versiones.