広場
最新
注目
ニュース
プロフィール
ポスト
Yifan ZhangがDeepSeek V4の完全な技術仕様を公開:1.6Tパラメータ、384専門家が6つを活性化
MeNews
2026-06-22 23:15:18
フォロー
概要作成中
MEニュース 4月22日(UTC+8)、動察Beatingの監測によると、プリンストン大学の博士課程の学生Yifan ZhangがXでDeepSeek V4の技術詳細を更新しました。彼は4月19日に「V4は来週」と予告し、3つのアーキテクチャコンポーネントの名称を挙げ、今夜完全なパラメータ表を公開するとともに、初めて285Bパラメータの軽量版V4-Liteの存在を明らかにしました。V4の総パラメータ数は1.6兆です。注意機構はDSA2で、DeepSeekが以前V3.2で使用したDSA(DeepSeek Sparse Attention)と、今年初めに論文で提案されたNSA(Native Sparse Attention)の2つの疎な注意力スキームを組み合わせています。head-dimは512で、Sparse MQAとSWA(スライディングウィンドウ注意)と併用しています。MoE層は合計384のエキスパートを持ち、毎回6つを活性化し、Fused MoE Mega-Kernelを使用しています。残差接続はHyper-Connectionsを採用しています。訓練段階で初めて明らかになった詳細には、最適化器にMuon(ニュートン-シュルツ正規化を動量更新に適用した行列レベルの最適化器)を使用、事前学習のコンテキスト長は32K、強化学習段階ではGRPOを用い、KLダイバージェンスの校正を追加しています。最終的なコンテキスト長は1Mに拡張されました。モダリティは純テキストです。ZhangはDeepSeekに所属しておらず、DeepSeek公式はこれらの情報に対してコメントしていません。(出典:BlockBeats)
DEEPSEEK
3.42%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
報酬
いいね
コメント
リポスト
共有
コメント
コメントを追加
コメントを追加
コメント
コメントなし
人気の話題
もっと見る
#
MyGateTradeStory
1.23M 人気度
#
IsraelStrikesIranBTCPlunges
61.79K 人気度
#
PredictWorldCup🇺🇸vs🇵🇾
892.07K 人気度
#
TradFiCFDGoldMaster
2.08M 人気度
#
SpaceXPlunges16%MarketCapErodes400B
2M 人気度
ピン留め
サイトマップ
Yifan ZhangがDeepSeek V4の完全な技術仕様を公開:1.6Tパラメータ、384専門家が6つを活性化