Futures
Accédez à des centaines de contrats perpétuels
CFD
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
CFD
Produits dérivés CFD sur actions américaines
US Stocks
Accédez à de véritables actions et ETF américains
HK Stocks
Tradez des actions des actions de qualité cotées à Hong Kong
Actions coréennes
SK Hynix
Tradez de véritables actions coréennes et investissez dans les actifs les plus populaires
Futures sur actions
Effet de levier élevé, trading 24h/24 et 7j/7
Actions tokenisées
Adossé à de véritables actions
IPO Access
Accédez à l'intégralité des introductions en bourse mondiales
GUSD
Mint GUSD pour des rendements de Treasury RWA
Activités boursières
Tradez des actions populaires et débloquez des airdrops généreux
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
IPO Access
Accédez à l'intégralité des introductions en bourse mondiales
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Promotions
Centre d'activités
Participez et gagnez des récompenses
Parrainage
20 USDT
Invitez des amis et gagnez des récompenses
Programme d'affiliation
Obtenez des commissions exclusives
Gate Booster
Développez votre influence et gagnez des airdrops
Annoncement
Mises à jour en temps réel
Blog Gate
Articles sur le secteur de la crypto
AI
Gate AI
Votre assistant IA polyvalent pour toutes vos conversations
Gate AI Bot
Utilisez Gate AI directement dans votre application sociale
GateClaw
Gate Blue Lobster, prêt à l’emploi
Gate for AI Agent
Infrastructure IA, Gate MCP, Skills et CLI
Gate Skills Hub
+10K compétences
De la bureautique au trading, une bibliothèque de compétences tout-en-un pour exploiter pleinement l’IA
Récemment, DeepSeek V4 a mis à jour DSpark, avec une augmentation de 80 % de la vitesse d'inférence.
Récemment, DeepSeek V4 a été mis à jour.
Un nouveau cadre de décodage spéculatif (Speculative Decoding) appelé DSpark a été lancé, et le cadre complet de décodage spéculatif full-stack qui le soutient, DeepSpec, a été open source en même temps.
DeepSeek-V4-Pro-DSpark n'est pas un nouveau modèle d'architecture, mais plutôt un module de décodage spéculatif introduit sur la base de DeepSeek-V4-Pro. L'accent de cette mise à jour est mis sur l'implémentation technique, plutôt que sur l'itération des capacités du modèle lui-même.
DSpark a été déployé dans le trafic en ligne réel de DeepSeek-V4 (Flash et Pro), accélérant considérablement la vitesse d'inférence des grands modèles de langage (LLM).
Rapport technique : « DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation »
Lien vers le rapport technique : https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf
L'objectif principal de DSpark est de résoudre les goulots d'étranglement de latence et de débit auxquels l'inférence LLM est confrontée dans les environnements de production (en particulier dans les scénarios à forte concurrence). En bref, DSpark réussit à combiner la « génération parallèle » à haut débit avec une « vérification adaptative de la charge ».
Le décodage spéculatif est une technique qui accélère l'inférence des grands modèles de langage sans modifier la distribution de sortie du modèle. L'idée centrale est d'introduire un « modèle de brouillon » (draft model) léger qui génère à l'avance plusieurs jetons candidats, puis le modèle cible (target model) valide et accepte ces candidats en lot, transformant ainsi la génération séquentielle jeton par jeton en une vérification parallèle par lots, réduisant considérablement la latence de bout en bout.
Sur cette base, l'innovation de DSpark réside dans l'introduction d'une architecture de génération semi-autorégressive : elle conserve l'avantage de débit élevé du modèle de brouillon parallèle, tout en ajoutant un module séquentiel léger qui modélise les dépendances entre les jetons au sein d'un bloc, atténuant ainsi le problème de baisse du taux d'acceptation des modèles de brouillon parallèles sur les positions ultérieures.
En plus de cela, il y a la vérification planifiée par confiance adaptée au matériel : auparavant, le décodage spéculatif envoyait aveuglément tous les jetons de brouillon générés pour vérification, et en cas de charge élevée du système, ces jetons de fin, très susceptibles d'être rejetés, gaspillaient gravement la puissance de calcul par lots précieuse. DSpark introduit une tête de confiance (Confidence Head) pour évaluer la probabilité de survie de chaque jeton. Combiné avec un planificateur de préfixe adapté au matériel, le système peut ajuster dynamiquement la longueur de vérification optimale pour chaque requête en fonction des caractéristiques de débit en temps réel du moteur, allouant la puissance de calcul uniquement aux jetons offrant le meilleur rendement attendu.
Pour être mis en œuvre dans une infrastructure en ligne réelle, le planificateur de DSpark adopte un mécanisme asynchrone, compatible avec la planification à zéro coût (ZOS) et la relecture continue de graphes CUDA. Il utilise les prévisions historiques des deux étapes précédentes pour déterminer la longueur de coupure dynamique actuelle, masquant ainsi la latence de planification, évitant les pauses du pipeline GPU, tout en garantissant une reconstruction totalement sans perte de la distribution de sortie du modèle cible.
Lors de tests couvrant plusieurs domaines tels que le raisonnement mathématique, la génération de code et les dialogues quotidiens, DSpark a largement surpassé les modèles autorégressifs de pointe (Eagle3) et les modèles de brouillon parallèles (DFlash). Par exemple, sur les modèles cibles de la série Qwen3 (4B, 8B, 14B), sa longueur d'acceptation moyenne a augmenté de 26,7 % à 30,9 % par rapport à Eagle3, et de 16,3 % à 18,4 % par rapport à DFlash.
Par rapport à la référence de production à jeton unique déployée précédemment (MTP-1), tout en maintenant le même débit global, DSpark a augmenté la vitesse de génération des utilisateurs de 60 % à 85 % (modèle Flash) et de 57 % à 78 % (modèle Pro).
En plus de DSpark, DeepSpec a également été open source, une bibliothèque de code full-stack pour l'entraînement et l'évaluation des modèles de brouillon de décodage spéculatif. C'est une « infrastructure open source » qui héberge ce schéma ainsi que d'autres implémentations d'algorithmes de pointe, comprenant des outils de préparation de données, des implémentations de modèles de brouillon, du code d'entraînement et des scripts d'évaluation.
DeepSpec divise le processus global en trois étapes : la préparation des données, l'entraînement et l'évaluation. Les trois étapes doivent être exécutées dans l'ordre, la sortie de l'étape précédente servant d'entrée pour l'étape suivante.
Lors de la phase de préparation des données, il faut télécharger les données de prompt, utiliser le moteur d'inférence pour régénérer les réponses du modèle cible, et construire un cache cible (target cache). Il est à noter qu'avec la configuration par défaut de Qwen/Qwen3-4B, la taille du cache cible peut atteindre environ 38 To, il est donc nécessaire d'évaluer suffisamment les ressources de stockage avant utilisation.
La phase d'entraînement peut être lancée via bash scripts/train/train.sh. Ce script appelle train.py et démarre un worker pour chaque GPU visible. Les utilisateurs peuvent sélectionner différentes configurations d'algorithme et de modèle cible dans le répertoire config/ en spécifiant config_path. Le projet prend également en charge l'ajustement des paramètres d'entraînement en écrasant config_path, target_cache_dir, et en utilisant --opts pour modifier des champs de configuration individuels.
En termes de matériel, la configuration et les scripts par défaut de DeepSpec sont destinés à un environnement à 8 GPU sur un seul nœud. Si le nombre de GPU est inférieur, les utilisateurs doivent réduire en conséquence le nombre de GPU visibles dans CUDA_VISIBLE_DEVICES.
La phase d'évaluation est lancée via bash scripts/eval/eval.sh. Le script d'évaluation utilise le checkpoint du modèle de brouillon entraîné pour mesurer l'acceptation sur plusieurs tâches de référence de décodage spéculatif. Les ensembles de données d'évaluation actuellement listés par le projet comprennent GSM8K, MATH500, AIME25, HumanEval, MBPP, LiveCodeBench, MT-Bench, Alpaca et Arena-Hard-v2, couvrant différents types de tâches tels que le raisonnement mathématique, la génération de code, la capacité de dialogue et les questions-réponses complètes.
En ce qui concerne les algorithmes, DeepSpec intègre actuellement trois modèles de brouillon : DSpark, DFlash et Eagle3. Pour les séries de modèles cibles, le projet prend actuellement en charge Qwen3 et Gemma.
L'open source de DeepSpec intègre la pratique d'ingénierie du décodage spéculatif, auparavant dispersée au sein de diverses équipes de recherche, en une chaîne d'outils standardisée reproductible et extensible. Pour les chercheurs et ingénieurs qui souhaitent accélérer l'inférence de leurs propres grands modèles, cela signifie qu'ils peuvent directement entraîner des modèles de brouillon personnalisés sur un cadre mature, en sautant une grande partie du travail de construction d'infrastructure répétitif.
Source de cet article : Machine Heart
Avertissement sur les risques et clause de non-responsabilité