Futures
Accédez à des centaines de contrats perpétuels
TradFi
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Launchpad
Soyez les premiers à participer au prochain grand projet de jetons
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Cursor publie la technologie d'optimisation de l'inférence MoE Warp Decode, augmentant le débit de 1,84 fois sur le GPU Blackwell
D’après le suivi de 1M AI News, l’outil de programmation IA Cursor publie un billet technique de blog qui présente sa méthode d’accélération de l’inférence MoE (modèle à experts multiples) développée en interne, Warp Decode. Cette méthode cible les scénarios de génération de tokens en micro-lots sur les GPU Nvidia Blackwell : elle inverse la stratégie de parallélisation traditionnelle centrée sur les experts pour adopter une approche centrée sur la sortie. Ainsi, dans le GPU, chaque warp (unité minimale de planification composée de 32 unités de traitement en parallèle) ne calcule qu’une seule valeur de sortie, parcourt indépendamment tous les experts auxquels les données sont routées, et effectue l’accumulation dans des registres, sans aucune synchronisation inter-warp ni tampon intermédiaire.
Le pipeline d’inférence MoE traditionnel comporte 8 étapes, dont 5 servent uniquement au transfert de données vers les vues des experts, sans effectuer de calculs réels. Warp Decode comprime l’ensemble de la couche de calcul MoE en seulement 2 kernels CUDA, en supprimant les étapes intermédiaires comme le remplissage, la dispersion, la fusion, etc. Pour chaque token, cela réduit de plus de 32KB les lectures et écritures de tampons intermédiaires.
Sur un GPU Nvidia B200, avec des tests réels sur un modèle de type Qwen-3, Warp Decode parvient à augmenter le débit de décodage de bout en bout de 1,84 fois. De plus, comme l’exécution se fait tout au long avec des calculs en précision BF16/FP32 et qu’elle évite les pertes dues à la quantification des quantités intermédiaires, la précision de sortie est proche d’un facteur 1,4 par rapport à la référence FP32. En termes d’utilisation de la bande passante matérielle, pour une taille de lot de 32, le débit soutenu atteint 3,95 TB/s, soit environ 58% de la bande passante de crête du B200 (6,8 TB/s). Cette optimisation accélère directement le cycle de développement et l’rythme de publication des versions du modèle de programmation développé en interne par Cursor, Composer.