Yifan ZhangはDeepSeek V4の完全な技術仕様を公開:1.6兆パラメータ、384人のエキスパートと6つのアクティベーション

ドンチャビーティングによる監視によると、プリンストン大学の博士課程学生の張一凡は、X上でDeepSeek V4の技術詳細を更新しました。彼は4月19日に「V4来週」とプレビューし、3つのアーキテクチャコンポーネント名をリストアップし、今夜完全なパラメータ表を提供しました。また、初めて2850億パラメータを持つ軽量版のV4-Liteの存在も明らかにしました。V4の総パラメータ数は1.6兆です。アテンションメカニズムはDSA2で、これは今年初めに提案された論文で示された2つのスパースアテンション方式、V3.2で使用されたDSA (DeepSeek Sparse Attention)とNSA (Native Sparse Attention)を組み合わせたものです。ヘッドの次元は512で、スパースMQAとSWA (Sliding Window Attention)とペアになっています。MoE層は合計384のエキスパートを持ち、同時に6つが活性化され、Fused MoE Mega-Kernelを使用しています。残差接続はハイパーコネクションに従います。トレーニング段階の詳細には、使用されたオプティマイザはMuon (ニュートン-シュルツ直交化を適用した行列レベルのオプティマイザ)で、事前学習のコンテキスト長は32K、強化学習フェーズではKLダイバージェンス補正を追加したGRPOを使用しています。最終的なコンテキスト長は1Mに拡張されました。モダリティは純粋なテキストです。張氏はDeepSeekに役職を持っておらず、DeepSeekも上記の情報に対して回答していません。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン