Pesquisadores do DeepMind especulam sobre o motivo do adiamento do DeepSeek V4: a duplicação dos dados de treinamento para 33T causou grave instabilidade.

robot
Geração do resumo em andamento
ME News消息,4月24日(UTC+8),据动察Beating监测,DeepSeek V4技术报告披露,V4-Flash和V4-Pro分别在32T和33T tokens上预训练,较V3的约15T tokens翻倍。报告坦承训练过程中「遭遇了显著的不稳定性挑战」,loss spike(训练损失突然飙升)反复出现,根源在于MoE层的异常值,路由机制本身还会加剧这些异常值,简单回滚无法根治。 DeepSeek找到两个方案并已应用于实际训练:Anticipatory Routing(预见性路由),将路由索引计算与主干网络更新解耦,仅在检测到loss spike时自动触发,额外开销约20%;SwiGLU Clamping,将激活值钳位到固定范围直接压制异常值。报告称两者均有效,但承认「底层原理尚未充分理解」。 谷歌DeepMind研究员Susan Zhang(曾供职于Meta AI和OpenAI)评论称,训练数据翻倍后引发的不稳定性「解释了延期」,将这两个方案形容为「创口贴」,同时肯定了DeepSeek的技术透明度。 (来源:BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado