MEニュース、4月22日(UTC+8)、動察Beatingの監測によると、プリンストン大学の博士課程学生Yifan ZhangがXでDeepSeek V4の技術詳細を更新しました。彼は4月19日に「V4は来週」と予告し、3つのアーキテクチャコンポーネントの名称を挙げ、今夜完全なパラメータ表を公開するとともに、初めて285Bパラメータの軽量版V4-Liteの存在を明らかにしました。V4の総パラメータ数は1.6Tです。注意機構はDSA2で、DeepSeekの以前のV3.2で使用されたDSA(DeepSeek Sparse Attention)と今年初めに論文で提案されたNSA(Native Sparse Attention)の2つの疎な注意力スキームを組み合わせています。head-dimは512で、Sparse MQAとSWA(スライディングウィンドウ注意)と併用しています。MoE層は合計384のエキスパートを持ち、毎回6つをアクティブにし、Fused MoE Mega-Kernelを使用しています。残差接続はHyper-Connectionsを採用しています。訓練段階で初めて公開された詳細には、最適化器にMuon(ニュートン-シュルツ正規化を動量更新に適用した行列レベルの最適化器)を使用、事前学習のコンテキスト長は32K、強化学習段階ではGRPOを用い、KLダイバージェンスの補正を追加しています。最終的なコンテキスト長は1Mに拡張されました。モダリティは純テキストです。ZhangはDeepSeekに所属しておらず、DeepSeek公式はこれらの情報に対してコメントしていません。(出典:BlockBeats)
Yifan Zhang披露DeepSeek V4完整技术规格:1.6T参数、384专家激活6个
MEニュース、4月22日(UTC+8)、動察Beatingの監測によると、プリンストン大学の博士課程学生Yifan ZhangがXでDeepSeek V4の技術詳細を更新しました。彼は4月19日に「V4は来週」と予告し、3つのアーキテクチャコンポーネントの名称を挙げ、今夜完全なパラメータ表を公開するとともに、初めて285Bパラメータの軽量版V4-Liteの存在を明らかにしました。V4の総パラメータ数は1.6Tです。注意機構はDSA2で、DeepSeekの以前のV3.2で使用されたDSA(DeepSeek Sparse Attention)と今年初めに論文で提案されたNSA(Native Sparse Attention)の2つの疎な注意力スキームを組み合わせています。head-dimは512で、Sparse MQAとSWA(スライディングウィンドウ注意)と併用しています。MoE層は合計384のエキスパートを持ち、毎回6つをアクティブにし、Fused MoE Mega-Kernelを使用しています。残差接続はHyper-Connectionsを採用しています。訓練段階で初めて公開された詳細には、最適化器にMuon(ニュートン-シュルツ正規化を動量更新に適用した行列レベルの最適化器)を使用、事前学習のコンテキスト長は32K、強化学習段階ではGRPOを用い、KLダイバージェンスの補正を追加しています。最終的なコンテキスト長は1Mに拡張されました。モダリティは純テキストです。ZhangはDeepSeekに所属しておらず、DeepSeek公式はこれらの情報に対してコメントしていません。(出典:BlockBeats)