Yifan Zhang披露DeepSeek V4完整技术规格:1.6T参数、384專家激活6個

robot
摘要生成中
ME News 消息,4 月 22 日(UTC+8),據 動察 Beating 監測,普林斯頓博士生 Yifan Zhang 在 X 更新了 DeepSeek V4 的技術細節。他 4 月 19 日預告「V4 下周」並列出三個架構組件名稱,今晚給出了完整參數表,同時首次披露存在一個 285B 參數的輕量版 V4-Lite。 V4 總參 1.6T。注意力機制為 DSA2,組合了 DeepSeek 此前在 V3.2 中使用的 DSA(DeepSeek Sparse Attention)和今年初論文提出的 NSA(Native Sparse Attention)兩種稀疏注意力方案,head-dim 512,配合 Sparse MQA 和 SWA(滑動窗口注意力)。MoE 層共 384 個專家,每次激活 6 個,使用 Fused MoE Mega-Kernel。殘差連接沿用 Hyper-Connections。 訓練端首次披露的細節包括:優化器用 Muon(一種將 Newton-Schulz 正交化應用於動量更新的矩陣級優化器),預訓練上下文長度 32K,強化學習階段用 GRPO 並加入 KL 散度校正。最終上下文長度擴展至 1M。模態為純文本。 Zhang 不在 DeepSeek 任職,DeepSeek 官方未對上述資訊做出回應。 (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆