Les chercheurs de DeepMind supposent que le retard de DeepSeek V4 est dû au doublement des données d'entraînement à 33 To, ce qui a provoqué une instabilité grave

Selon le suivi Beating, le rapport technique de DeepSeek V4 révèle que V4-Flash et V4-Pro ont été pré-entraînés respectivement sur 32T et 33T de tokens, soit le double par rapport à environ 15T tokens pour V3.
Le rapport admet que lors de l’entraînement, « des défis importants d’instabilité ont été rencontrés », avec des pics de perte (loss spike) récurrents, la cause étant des valeurs aberrantes dans la couche MoE, le mécanisme de routage lui-même aggravant ces anomalies, un simple rollback ne pouvant pas résoudre le problème.

DeepSeek a identifié deux solutions déjà appliquées à l’entraînement réel : Anticipatory Routing (routage anticipatif), qui délie le calcul de l’index de routage de la mise à jour du réseau principal, déclenché automatiquement uniquement en cas de loss spike, avec un coût supplémentaire d’environ 20 % ; SwiGLU Clamping, qui limite les valeurs d’activation à une plage fixe pour supprimer directement les valeurs aberrantes.
Le rapport indique que ces deux méthodes sont efficaces, mais admet que « les principes fondamentaux ne sont pas encore entièrement compris ».

Le chercheur de Google DeepMind Susan Zhang (ayant travaillé chez Meta AI et OpenAI) a commenté que l’instabilité provoquée par le doublement des données d’entraînement « explique le retard », qualifiant ces deux solutions de « pansements », tout en saluant la transparence technologique de DeepSeek.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler