Les chercheurs de DeepMind spéculent sur la raison du retard de DeepSeek V4 : le doublement des données d'entraînement à 33T provoque une grave instabilité.

robot
Création du résumé en cours

ME News 消息,4 月 24 日(UTC+8),据 动察 Beating 监测,DeepSeek V4 技术报告披露,V4-Flash 和 V4-Pro 分别在 32T 和 33T tokens 上预训练,较 V3 的约 15T tokens 翻倍。

ME News, le 24 avril (UTC+8), selon le monitoring de 动察 Beating, le rapport technique DeepSeek V4 révèle que V4-Flash et V4-Pro ont été pré-entraînés respectivement sur 32T et 33T tokens, soit le double des ~15T tokens de V3.

报告坦承训练过程中「遭遇了显著的不稳定性挑战」,loss spike(训练损失突然飙升)反复出现,根源在于 MoE 层的异常值,路由机制本身还会加剧这些异常值,简单回滚无法根治。

Le rapport admet avoir « rencontré des défis d'instabilité significatifs » durant l'entraînement, avec des pertes spikes (montées soudaines de la perte d'entraînement) récurrentes, dont la cause réside dans les valeurs aberrantes de la couche MoE, le mécanisme de routage aggravant lui-même ces valeurs aberrantes, un simple rollback ne pouvant résoudre le problème.

DeepSeek 找到两个方案并已应用于实际训练:Anticipatory Routing(预见性路由),将路由索引计算与主干网络更新解耦,仅在检测到 loss spike 时自动触发,额外开销约 20%;SwiGLU Clamping,将激活值钳位到固定范围直接压制异常值。

DeepSeek a trouvé deux solutions et les a appliquées à l'entraînement réel : Anticipatory Routing (routage anticipatif), qui découple le calcul des indices de routage des mises à jour du réseau principal, ne se déclenche automatiquement qu'en cas de détection d'un spike de perte, avec un surcoût d'environ 20 % ; SwiGLU Clamping, qui clamp les valeurs d'activation dans une plage fixe pour supprimer directement les valeurs aberrantes.

报告称两者均有效,但承认「底层原理尚未充分理解」。

Le rapport indique que les deux sont efficaces, mais reconnaît que « les principes sous-jacents ne sont pas encore pleinement compris ».

谷歌 DeepMind 研究员 Susan Zhang(曾供职于 Meta AI 和 OpenAI)评论称,训练数据翻倍后引发的不稳定性「解释了延期」,将这两个方案形容为「创口贴」,同时肯定了 DeepSeek 的技术透明度。

La chercheuse de Google DeepMind, Susan Zhang (anciennement chez Meta AI et OpenAI), commente que l'instabilité provoquée par le doublement des données d'entraînement « explique le retard », qualifiant ces deux solutions de « pansements », tout en saluant la transparence technique de DeepSeek.

(来源:BlockBeats)

(Source : BlockBeats)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé