Chercheur de DeepMind spéculant sur le retard de DeepSeek V4 : les données d'entraînement doublées à 33T provoquent une instabilité sévère

robot
Création du résumé en cours

Selon la surveillance de Dongcha Beating, le rapport technique pour DeepSeek V4 révèle que V4-Flash et V4-Pro ont été pré-entraînés sur respectivement 32T et 33T de tokens, doublant les environ 15T tokens utilisés dans V3. Le rapport admet que le processus d’entraînement a rencontré des « défis d’instabilité significatifs », avec des occurrences répétées de pics de perte (augmentations soudaines de la perte d’entraînement) attribuées à des valeurs aberrantes dans la couche MoE, et le mécanisme de routage lui-même aggravant ces valeurs aberrantes, rendant les simples retours en arrière inefficaces. DeepSeek a identifié deux solutions qui ont été appliquées dans l’entraînement réel : le Routage Anticipatif, qui découple le calcul de l’indice de routage des mises à jour du réseau principal et est automatiquement déclenché uniquement lorsqu’un pic de perte est détecté, entraînant un surcoût supplémentaire d’environ 20 % ; et le Clamp SwiGLU, qui limite les valeurs d’activation à une plage fixe pour supprimer directement les valeurs aberrantes. Le rapport indique que les deux méthodes sont efficaces mais reconnaît que « les principes sous-jacents ne sont pas encore entièrement compris ». La chercheuse de Google DeepMind, Susan Zhang, qui a précédemment travaillé chez Meta AI et OpenAI, a commenté que l’instabilité causée par le doublement des données d’entraînement « explique le retard », décrivant ces deux solutions comme des « pansements », tout en affirmant également la transparence technique de DeepSeek.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler