广场
最新
热门
资讯
我的主页
发布
DeepMind研究员推测DeepSeek V4延期原因:训练数据翻倍至33T引发严重不稳定
ME News
2026-07-03 07:52:33
关注
摘要生成中
ME News 消息,4 月 24 日(UTC+8),据 动察 Beating 监测,DeepSeek V4 技术报告披露,V4-Flash 和 V4-Pro 分别在 32T 和 33T tokens 上预训练,较 V3 的约 15T tokens 翻倍。报告坦承训练过程中「遭遇了显著的不稳定性挑战」,loss spike(训练损失突然飙升)反复出现,根源在于 MoE 层的异常值,路由机制本身还会加剧这些异常值,简单回滚无法根治。 DeepSeek 找到两个方案并已应用于实际训练:Anticipatory Routing(预见性路由),将路由索引计算与主干网络更新解耦,仅在检测到 loss spike 时自动触发,额外开销约 20%;SwiGLU Clamping,将激活值钳位到固定范围直接压制异常值。报告称两者均有效,但承认「底层原理尚未充分理解」。 谷歌 DeepMind 研究员 Susan Zhang(曾供职于 Meta AI 和 OpenAI)评论称,训练数据翻倍后引发的不稳定性「解释了延期」,将这两个方案形容为「创口贴」,同时肯定了 DeepSeek 的技术透明度。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
赞赏
点赞
评论
转发
分享
评论
请输入评论内容
请输入评论内容
评论
暂无评论
热门话题
查看更多
#
gStocks代币化股票上线
437.3万 热度
#
非农爆冷打压加息预期
103.21万 热度
#
预测世界杯阿根廷VS佛得角
18.63万 热度
#
ETH突破1700
1.2亿 热度
#
Meta卖算力引发存储股大跌
139.08万 热度
置顶
网站地图
DeepMind研究员推测DeepSeek V4延期原因:训练数据翻倍至33T引发严重不稳定