ME News, le 24 avril (UTC+8), selon le monitoring de 动察 Beating, le rapport technique DeepSeek V4 révèle que V4-Flash et V4-Pro ont été pré-entraînés respectivement sur 32T et 33T tokens, soit le double des ~15T tokens de V3.

报告坦承训练过程中「遭遇了显著的不稳定性挑战」，loss spike（训练损失突然飙升）反复出现，根源在于 MoE 层的异常值，路由机制本身还会加剧这些异常值，简单回滚无法根治。

Le rapport admet avoir « rencontré des défis d'instabilité significatifs » durant l'entraînement, avec des pertes spikes (montées soudaines de la perte d'entraînement) récurrentes, dont la cause réside dans les valeurs aberrantes de la couche MoE, le mécanisme de routage aggravant lui-même ces valeurs aberrantes, un simple rollback ne pouvant résoudre le problème.

DeepSeek 找到两个方案并已应用于实际训练：Anticipatory Routing（预见性路由），将路由索引计算与主干网络更新解耦，仅在检测到 loss spike 时自动触发，额外开销约 20%；SwiGLU Clamping，将激活值钳位到固定范围直接压制异常值。

DeepSeek a trouvé deux solutions et les a appliquées à l'entraînement réel : Anticipatory Routing (routage anticipatif), qui découple le calcul des indices de routage des mises à jour du réseau principal, ne se déclenche automatiquement qu'en cas de détection d'un spike de perte, avec un surcoût d'environ 20 % ; SwiGLU Clamping, qui clamp les valeurs d'activation dans une plage fixe pour supprimer directement les valeurs aberrantes.

报告称两者均有效，但承认「底层原理尚未充分理解」。

Le rapport indique que les deux sont efficaces, mais reconnaît que « les principes sous-jacents ne sont pas encore pleinement compris ».

谷歌 DeepMind 研究员 Susan Zhang（曾供职于 Meta AI 和 OpenAI）评论称，训练数据翻倍后引发的不稳定性「解释了延期」，将这两个方案形容为「创口贴」，同时肯定了 DeepSeek 的技术透明度。

La chercheuse de Google DeepMind, Susan Zhang (anciennement chez Meta AI et OpenAI), commente que l'instabilité provoquée par le doublement des données d'entraînement « explique le retard », qualifiant ces deux solutions de « pansements », tout en saluant la transparence technique de DeepSeek.

（来源：BlockBeats）

(Source : BlockBeats)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
gStocksTokenizedStocksLive
3,99M Popularité
#
StrongNonfarmPayrollsRekindleRateHikeFear
1,02M Popularité
#
IsraelStrikesIranBTCPlunges
67,72K Popularité
#
PredictWorldCupShare20000U
181,89K Popularité
#
ETHBreaks1700
152,53M Popularité

Épinglé

Les chercheurs de DeepMind spéculent sur la raison du retard de DeepSeek V4 : le doublement des données d'entraînement à 33T provoque une grave instabilité.

Sujets populaires

gStocksTokenizedStocksLive

StrongNonfarmPayrollsRekindleRateHikeFear

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

ETHBreaks1700

Épinglé