Récemment, DeepSeek V4 a mis à jour DSpark, avec une augmentation de 80 % de la vitesse d'inférence.

robot
Création du résumé en cours

Récemment, DeepSeek V4 a été mis à jour.

Un nouveau cadre de décodage spéculatif (Speculative Decoding) appelé DSpark a été lancé, et le cadre complet de décodage spéculatif full-stack qui le soutient, DeepSpec, a été open source en même temps.

DeepSeek-V4-Pro-DSpark n'est pas un nouveau modèle d'architecture, mais plutôt un module de décodage spéculatif introduit sur la base de DeepSeek-V4-Pro. L'accent de cette mise à jour est mis sur l'implémentation technique, plutôt que sur l'itération des capacités du modèle lui-même.

DSpark a été déployé dans le trafic en ligne réel de DeepSeek-V4 (Flash et Pro), accélérant considérablement la vitesse d'inférence des grands modèles de langage (LLM).

  • Rapport technique : « DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation »

  • Lien vers le rapport technique : https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

L'objectif principal de DSpark est de résoudre les goulots d'étranglement de latence et de débit auxquels l'inférence LLM est confrontée dans les environnements de production (en particulier dans les scénarios à forte concurrence). En bref, DSpark réussit à combiner la « génération parallèle » à haut débit avec une « vérification adaptative de la charge ».

Le décodage spéculatif est une technique qui accélère l'inférence des grands modèles de langage sans modifier la distribution de sortie du modèle. L'idée centrale est d'introduire un « modèle de brouillon » (draft model) léger qui génère à l'avance plusieurs jetons candidats, puis le modèle cible (target model) valide et accepte ces candidats en lot, transformant ainsi la génération séquentielle jeton par jeton en une vérification parallèle par lots, réduisant considérablement la latence de bout en bout.

Sur cette base, l'innovation de DSpark réside dans l'introduction d'une architecture de génération semi-autorégressive : elle conserve l'avantage de débit élevé du modèle de brouillon parallèle, tout en ajoutant un module séquentiel léger qui modélise les dépendances entre les jetons au sein d'un bloc, atténuant ainsi le problème de baisse du taux d'acceptation des modèles de brouillon parallèles sur les positions ultérieures.

En plus de cela, il y a la vérification planifiée par confiance adaptée au matériel : auparavant, le décodage spéculatif envoyait aveuglément tous les jetons de brouillon générés pour vérification, et en cas de charge élevée du système, ces jetons de fin, très susceptibles d'être rejetés, gaspillaient gravement la puissance de calcul par lots précieuse. DSpark introduit une tête de confiance (Confidence Head) pour évaluer la probabilité de survie de chaque jeton. Combiné avec un planificateur de préfixe adapté au matériel, le système peut ajuster dynamiquement la longueur de vérification optimale pour chaque requête en fonction des caractéristiques de débit en temps réel du moteur, allouant la puissance de calcul uniquement aux jetons offrant le meilleur rendement attendu.

Pour être mis en œuvre dans une infrastructure en ligne réelle, le planificateur de DSpark adopte un mécanisme asynchrone, compatible avec la planification à zéro coût (ZOS) et la relecture continue de graphes CUDA. Il utilise les prévisions historiques des deux étapes précédentes pour déterminer la longueur de coupure dynamique actuelle, masquant ainsi la latence de planification, évitant les pauses du pipeline GPU, tout en garantissant une reconstruction totalement sans perte de la distribution de sortie du modèle cible.

Lors de tests couvrant plusieurs domaines tels que le raisonnement mathématique, la génération de code et les dialogues quotidiens, DSpark a largement surpassé les modèles autorégressifs de pointe (Eagle3) et les modèles de brouillon parallèles (DFlash). Par exemple, sur les modèles cibles de la série Qwen3 (4B, 8B, 14B), sa longueur d'acceptation moyenne a augmenté de 26,7 % à 30,9 % par rapport à Eagle3, et de 16,3 % à 18,4 % par rapport à DFlash.

Par rapport à la référence de production à jeton unique déployée précédemment (MTP-1), tout en maintenant le même débit global, DSpark a augmenté la vitesse de génération des utilisateurs de 60 % à 85 % (modèle Flash) et de 57 % à 78 % (modèle Pro).

En plus de DSpark, DeepSpec a également été open source, une bibliothèque de code full-stack pour l'entraînement et l'évaluation des modèles de brouillon de décodage spéculatif. C'est une « infrastructure open source » qui héberge ce schéma ainsi que d'autres implémentations d'algorithmes de pointe, comprenant des outils de préparation de données, des implémentations de modèles de brouillon, du code d'entraînement et des scripts d'évaluation.

DeepSpec divise le processus global en trois étapes : la préparation des données, l'entraînement et l'évaluation. Les trois étapes doivent être exécutées dans l'ordre, la sortie de l'étape précédente servant d'entrée pour l'étape suivante.

Lors de la phase de préparation des données, il faut télécharger les données de prompt, utiliser le moteur d'inférence pour régénérer les réponses du modèle cible, et construire un cache cible (target cache). Il est à noter qu'avec la configuration par défaut de Qwen/Qwen3-4B, la taille du cache cible peut atteindre environ 38 To, il est donc nécessaire d'évaluer suffisamment les ressources de stockage avant utilisation.

La phase d'entraînement peut être lancée via bash scripts/train/train.sh. Ce script appelle train.py et démarre un worker pour chaque GPU visible. Les utilisateurs peuvent sélectionner différentes configurations d'algorithme et de modèle cible dans le répertoire config/ en spécifiant config_path. Le projet prend également en charge l'ajustement des paramètres d'entraînement en écrasant config_path, target_cache_dir, et en utilisant --opts pour modifier des champs de configuration individuels.

En termes de matériel, la configuration et les scripts par défaut de DeepSpec sont destinés à un environnement à 8 GPU sur un seul nœud. Si le nombre de GPU est inférieur, les utilisateurs doivent réduire en conséquence le nombre de GPU visibles dans CUDA_VISIBLE_DEVICES.

La phase d'évaluation est lancée via bash scripts/eval/eval.sh. Le script d'évaluation utilise le checkpoint du modèle de brouillon entraîné pour mesurer l'acceptation sur plusieurs tâches de référence de décodage spéculatif. Les ensembles de données d'évaluation actuellement listés par le projet comprennent GSM8K, MATH500, AIME25, HumanEval, MBPP, LiveCodeBench, MT-Bench, Alpaca et Arena-Hard-v2, couvrant différents types de tâches tels que le raisonnement mathématique, la génération de code, la capacité de dialogue et les questions-réponses complètes.

En ce qui concerne les algorithmes, DeepSpec intègre actuellement trois modèles de brouillon : DSpark, DFlash et Eagle3. Pour les séries de modèles cibles, le projet prend actuellement en charge Qwen3 et Gemma.

L'open source de DeepSpec intègre la pratique d'ingénierie du décodage spéculatif, auparavant dispersée au sein de diverses équipes de recherche, en une chaîne d'outils standardisée reproductible et extensible. Pour les chercheurs et ingénieurs qui souhaitent accélérer l'inférence de leurs propres grands modèles, cela signifie qu'ils peuvent directement entraîner des modèles de brouillon personnalisés sur un cadre mature, en sautant une grande partie du travail de construction d'infrastructure répétitif.

Source de cet article : Machine Heart

Avertissement sur les risques et clause de non-responsabilité

        Le marché comporte des risques, il faut investir avec prudence. Cet article ne constitue pas un conseil d'investissement personnel et ne tient pas compte des objectifs d'investissement, de la situation financière ou des besoins spécifiques de certains utilisateurs. Les utilisateurs doivent considérer si les opinions, points de vue ou conclusions de cet article correspondent à leur situation particulière. Investir en conséquence relève de leur propre responsabilité.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire