DeepMind研究员推测DeepSeek V4延期原因:训练数据翻倍至33T引发严重不稳定

robot
摘要生成中
ME News 消息,4 月 24 日(UTC+8),据 动察 Beating 监测,DeepSeek V4 技术报告披露,V4-Flash 和 V4-Pro 分别在 32T 和 33T tokens 上预训练,较 V3 的约 15T tokens 翻倍。报告坦承训练过程中「遭遇了显著的不稳定性挑战」,loss spike(训练损失突然飙升)反复出现,根源在于 MoE 层的异常值,路由机制本身还会加剧这些异常值,简单回滚无法根治。 DeepSeek 找到两个方案并已应用于实际训练:Anticipatory Routing(预见性路由),将路由索引计算与主干网络更新解耦,仅在检测到 loss spike 时自动触发,额外开销约 20%;SwiGLU Clamping,将激活值钳位到固定范围直接压制异常值。报告称两者均有效,但承认「底层原理尚未充分理解」。 谷歌 DeepMind 研究员 Susan Zhang(曾供职于 Meta AI 和 OpenAI)评论称,训练数据翻倍后引发的不稳定性「解释了延期」,将这两个方案形容为「创口贴」,同时肯定了 DeepSeek 的技术透明度。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论