Futures
Accédez à des centaines de contrats perpétuels
CFD
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
CFD
Produits dérivés CFD sur actions américaines
US Stocks
Accédez à de véritables actions et ETF américains
HK Stocks
Tradez des actions des actions de qualité cotées à Hong Kong
Actions coréennes
SK Hynix
Tradez de véritables actions coréennes et investissez dans les actifs les plus populaires
Futures sur actions
Effet de levier élevé, trading 24h/24 et 7j/7
Actions tokenisées
Adossé à de véritables actions
IPO Access
Accédez à l'intégralité des introductions en bourse mondiales
GUSD
Mint GUSD pour des rendements de Treasury RWA
Activités boursières
Tradez des actions populaires et débloquez des airdrops généreux
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
IPO Access
Accédez à l'intégralité des introductions en bourse mondiales
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Promotions
Centre d'activités
Participez et gagnez des récompenses
Parrainage
20 USDT
Invitez des amis et gagnez des récompenses
Programme d'affiliation
Obtenez des commissions exclusives
Gate Booster
Développez votre influence et gagnez des airdrops
Annoncement
Mises à jour en temps réel
Blog Gate
Articles sur le secteur de la crypto
AI
Gate AI
Votre assistant IA polyvalent pour toutes vos conversations
Gate AI Bot
Utilisez Gate AI directement dans votre application sociale
GateClaw
Gate Blue Lobster, prêt à l’emploi
Gate for AI Agent
Infrastructure IA, Gate MCP, Skills et CLI
Gate Skills Hub
+10K compétences
De la bureautique au trading, une bibliothèque de compétences tout-en-un pour exploiter pleinement l’IA
Les chercheurs de DeepMind spéculent sur la raison du retard de DeepSeek V4 : le doublement des données d'entraînement à 33T provoque une grave instabilité.
ME News 消息,4 月 24 日(UTC+8),据 动察 Beating 监测,DeepSeek V4 技术报告披露,V4-Flash 和 V4-Pro 分别在 32T 和 33T tokens 上预训练,较 V3 的约 15T tokens 翻倍。
ME News, le 24 avril (UTC+8), selon le monitoring de 动察 Beating, le rapport technique DeepSeek V4 révèle que V4-Flash et V4-Pro ont été pré-entraînés respectivement sur 32T et 33T tokens, soit le double des ~15T tokens de V3.
报告坦承训练过程中「遭遇了显著的不稳定性挑战」,loss spike(训练损失突然飙升)反复出现,根源在于 MoE 层的异常值,路由机制本身还会加剧这些异常值,简单回滚无法根治。
Le rapport admet avoir « rencontré des défis d'instabilité significatifs » durant l'entraînement, avec des pertes spikes (montées soudaines de la perte d'entraînement) récurrentes, dont la cause réside dans les valeurs aberrantes de la couche MoE, le mécanisme de routage aggravant lui-même ces valeurs aberrantes, un simple rollback ne pouvant résoudre le problème.
DeepSeek 找到两个方案并已应用于实际训练:Anticipatory Routing(预见性路由),将路由索引计算与主干网络更新解耦,仅在检测到 loss spike 时自动触发,额外开销约 20%;SwiGLU Clamping,将激活值钳位到固定范围直接压制异常值。
DeepSeek a trouvé deux solutions et les a appliquées à l'entraînement réel : Anticipatory Routing (routage anticipatif), qui découple le calcul des indices de routage des mises à jour du réseau principal, ne se déclenche automatiquement qu'en cas de détection d'un spike de perte, avec un surcoût d'environ 20 % ; SwiGLU Clamping, qui clamp les valeurs d'activation dans une plage fixe pour supprimer directement les valeurs aberrantes.
报告称两者均有效,但承认「底层原理尚未充分理解」。
Le rapport indique que les deux sont efficaces, mais reconnaît que « les principes sous-jacents ne sont pas encore pleinement compris ».
谷歌 DeepMind 研究员 Susan Zhang(曾供职于 Meta AI 和 OpenAI)评论称,训练数据翻倍后引发的不稳定性「解释了延期」,将这两个方案形容为「创口贴」,同时肯定了 DeepSeek 的技术透明度。
La chercheuse de Google DeepMind, Susan Zhang (anciennement chez Meta AI et OpenAI), commente que l'instabilité provoquée par le doublement des données d'entraînement « explique le retard », qualifiant ces deux solutions de « pansements », tout en saluant la transparence technique de DeepSeek.
(来源:BlockBeats)
(Source : BlockBeats)