Yifan Zhang披露DeepSeek V4完整技术规格:1.6T参数、384专家激活6个

robot
摘要生成中
ME News 消息,4 月 22 日(UTC+8),据 动察 Beating 监测,普林斯顿博士生 Yifan Zhang 在 X 更新了 DeepSeek V4 的技术细节。他 4 月 19 日预告「V4 下周」并列出三个架构组件名称,今晚给出了完整参数表,同时首次披露存在一个 285B 参数的轻量版 V4-Lite。 V4 总参 1.6T。注意力机制为 DSA2,组合了 DeepSeek 此前在 V3.2 中使用的 DSA(DeepSeek Sparse Attention)和今年初论文提出的 NSA(Native Sparse Attention)两种稀疏注意力方案,head-dim 512,配合 Sparse MQA 和 SWA(滑动窗口注意力)。MoE 层共 384 个专家,每次激活 6 个,使用 Fused MoE Mega-Kernel。残差连接沿用 Hyper-Connections。 训练端首次披露的细节包括:优化器用 Muon(一种将 Newton-Schulz 正交化应用于动量更新的矩阵级优化器),预训练上下文长度 32K,强化学习阶段用 GRPO 并加入 KL 散度校正。最终上下文长度扩展至 1M。模态为纯文本。 Zhang 不在 DeepSeek 任职,DeepSeek 官方未对上述信息做出回应。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论