DeepSeek V4 double les tokens par rapport à V3, confronté à une instabilité due aux outliers MoE et aux pics liés au routage ; deux solutions—Routage Anticipatif (perte-déclencheur, ~20% de calcul supplémentaire) et Limitation SwiGLU (plafond d'activation)—résolvent les problèmes bien que les principes restent flous. Zhang les qualifie de pansements mais transparents.Résumé : Ce rapport résume les défis de formation de DeepSeek V4 et les stratégies d'atténuation. V4-Flash et V4-Pro ont été pré-entraînés sur 32T et 33T tokens, doublant approximativement les ~15T de V3, et ont connu une instabilité importante due aux outliers dans le processus de routage MoE, avec des pics de perte et des rollback inefficaces. Le Routage Anticipatif découple la mise à jour de l'index de routage de la formation du backbone et s'active automatiquement lors de pics de perte, avec environ 20% de calcul supplémentaire ; la Limitation SwiGLU limite les activations à une plage fixe pour supprimer les outliers. Les deux méthodes ont été efficaces, bien que leurs principes sous-jacents restent mal compris. Susan Zhang de Google DeepMind a qualifié ces changements de pansements pragmatiques tout en louant la transparence du projet.

AirdropBlackHole

2026-04-27 02:14:01

Création du résumé en cours

Selon la surveillance de Dongcha Beating, le rapport technique pour DeepSeek V4 révèle que V4-Flash et V4-Pro ont été pré-entraînés sur respectivement 32T et 33T de tokens, doublant les environ 15T tokens utilisés dans V3. Le rapport admet que le processus d’entraînement a rencontré des « défis d’instabilité significatifs », avec des occurrences répétées de pics de perte (augmentations soudaines de la perte d’entraînement) attribuées à des valeurs aberrantes dans la couche MoE, et le mécanisme de routage lui-même aggravant ces valeurs aberrantes, rendant les simples retours en arrière inefficaces. DeepSeek a identifié deux solutions qui ont été appliquées dans l’entraînement réel : le Routage Anticipatif, qui découple le calcul de l’indice de routage des mises à jour du réseau principal et est automatiquement déclenché uniquement lorsqu’un pic de perte est détecté, entraînant un surcoût supplémentaire d’environ 20 % ; et le Clamp SwiGLU, qui limite les valeurs d’activation à une plage fixe pour supprimer directement les valeurs aberrantes. Le rapport indique que les deux méthodes sont efficaces mais reconnaît que « les principes sous-jacents ne sont pas encore entièrement compris ». La chercheuse de Google DeepMind, Susan Zhang, qui a précédemment travaillé chez Meta AI et OpenAI, a commenté que l’instabilité causée par le doublement des données d’entraînement « explique le retard », décrivant ces deux solutions comme des « pansements », tout en affirmant également la transparence technique de DeepSeek.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
WCTCTradingKingPK
282.33K Popularité
#
比特币Breaks79K
11.68M Popularité
#
IsraelStrikesIranBTCPlunges
34.3K Popularité
#
CryptoMarketsRiseBroadly
90.2K Popularité
#
WHCADinnerShootingIncident
15.83K Popularité

Épingler

Chercheur de DeepMind spéculant sur le retard de DeepSeek V4 : les données d'entraînement doublées à 33T provoquent une instabilité sévère

Sujets populaires

WCTCTradingKingPK

比特币Breaks79K

IsraelStrikesIranBTCPlunges

CryptoMarketsRiseBroadly

WHCADinnerShootingIncident

Épingler