DeepSeek a ouvert le cadre d'accélération d'inférence DeepSpec, et le lancement de DSpark permet d'augmenter la vitesse du modèle V4 jusqu'à 85%.

robot
Création du résumé en cours

Selon la surveillance de Dongcha Beating, DeepSeek, en collaboration avec l'Université de Pékin, a publié le rapport technique du cadre d'accélération d'échantillonnage spéculatif DSpark et a open-sourcé la bibliothèque de code complète DeepSpec. Actuellement, DSpark est déployé dans les services en ligne de DeepSeek-V4. Tout en garantissant une sortie sans perte, DSpark augmente la vitesse de génération par utilisateur de la version Flash de 60 % à 85 %, et celle de la version Pro de 57 % à 78 %. DSpark surpasse la ligne de base de prédiction multi-branches à token unique (MTP-1) et améliore considérablement le débit global du système sous des contraintes de latence strictes.

Auparavant, l'échantillonnage spéculatif multi-token était difficile à mettre en œuvre dans un environnement de production en ligne. Le modèle de brouillon autorégressif était trop lent à générer, tandis que le modèle de brouillon parallèle, en raison de prédictions indépendantes à chaque position, entraînait un taux d'acceptation très faible pour la seconde moitié des longues séquences. Si l'on vérifie aveuglément les brouillons multi-token sous une forte concurrence, le grand modèle gaspille beaucoup de puissance de calcul pour vérifier des mots erronés voués au rejet, ce qui fait chuter considérablement le débit global du système. Par conséquent, l'industrie se limite principalement à la prédiction à token unique (MTP-1) en ligne.

DSpark surmonte le goulot d'étranglement de dégradation du débit sous forte concurrence. DSpark utilise d'abord le réseau dorsal parallèle DFlash pour générer des états cachés, puis ajoute une tête de Markov extrêmement légère. La tête de Markov injecte en série les corrélations entre mots adjacents à un coût très faible via une recherche de table et une multiplication matricielle. Parallèlement, le système intègre une tête de prédiction de confiance et un algorithme de calibrage postérieur. Afin d'être parfaitement compatible avec l'ordonnancement à zéro surcoût en environnement de production et d'éviter les fuites d'informations futures, l'ordonnanceur adopte un mécanisme asynchrone, utilisant les prédictions historiques de deux pas en arrière pour déterminer dynamiquement la longueur de découpage des candidats, empêchant ainsi complètement le grand modèle de vérifier les mots erronés à haut risque en queue sous charge lourde.

Outre DSpark, la bibliothèque de code DeepSpec open-sourcée cette fois par DeepSeek prend en charge nativement les grands modèles open source comme Qwen3 et Gemma. DeepSpec fournit une chaîne d'outils Python complète allant du téléchargement des prompts, de la reconstruction du cache du grand modèle, de l'entraînement du modèle de brouillon à l'évaluation de référence. Les développeurs peuvent utiliser directement les scripts open source pour personnaliser et déployer des modules d'accélération dédiés pour différents grands modèles open source localement.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire