ドンチャビーティングによる監視によると、プリンストン大学の博士課程学生の張一凡は、X上でDeepSeek V4の技術詳細を更新しました。彼は4月19日に「V4来週」とプレビューし、3つのアーキテクチャコンポーネント名をリストアップし、今夜完全なパラメータ表を提供しました。また、初めて2850億パラメータを持つ軽量版のV4-Liteの存在も明らかにしました。V4の総パラメータ数は1.6兆です。アテンションメカニズムはDSA2で、これは今年初めに提案された論文で示された2つのスパースアテンション方式、V3.2で使用されたDSA (DeepSeek Sparse Attention)とNSA (Native Sparse Attention)を組み合わせたものです。ヘッドの次元は512で、スパースMQAとSWA (Sliding Window Attention)とペアになっています。MoE層は合計384のエキスパートを持ち、同時に6つが活性化され、Fused MoE Mega-Kernelを使用しています。残差接続はハイパーコネクションに従います。トレーニング段階の詳細には、使用されたオプティマイザはMuon (ニュートン-シュルツ直交化を適用した行列レベルのオプティマイザ)で、事前学習のコンテキスト長は32K、強化学習フェーズではKLダイバージェンス補正を追加したGRPOを使用しています。最終的なコンテキスト長は1Mに拡張されました。モダリティは純粋なテキストです。張氏はDeepSeekに役職を持っておらず、DeepSeekも上記の情報に対して回答していません。
Yifan ZhangはDeepSeek V4の完全な技術仕様を公開:1.6兆パラメータ、384人のエキスパートと6つのアクティベーション
ドンチャビーティングによる監視によると、プリンストン大学の博士課程学生の張一凡は、X上でDeepSeek V4の技術詳細を更新しました。彼は4月19日に「V4来週」とプレビューし、3つのアーキテクチャコンポーネント名をリストアップし、今夜完全なパラメータ表を提供しました。また、初めて2850億パラメータを持つ軽量版のV4-Liteの存在も明らかにしました。V4の総パラメータ数は1.6兆です。アテンションメカニズムはDSA2で、これは今年初めに提案された論文で示された2つのスパースアテンション方式、V3.2で使用されたDSA (DeepSeek Sparse Attention)とNSA (Native Sparse Attention)を組み合わせたものです。ヘッドの次元は512で、スパースMQAとSWA (Sliding Window Attention)とペアになっています。MoE層は合計384のエキスパートを持ち、同時に6つが活性化され、Fused MoE Mega-Kernelを使用しています。残差接続はハイパーコネクションに従います。トレーニング段階の詳細には、使用されたオプティマイザはMuon (ニュートン-シュルツ直交化を適用した行列レベルのオプティマイザ)で、事前学習のコンテキスト長は32K、強化学習フェーズではKLダイバージェンス補正を追加したGRPOを使用しています。最終的なコンテキスト長は1Mに拡張されました。モダリティは純粋なテキストです。張氏はDeepSeekに役職を持っておらず、DeepSeekも上記の情報に対して回答していません。