X上、プリンストン大学の博士課程の張某がDeepSeek V4の要点を公開：V4/V4-Liteはそれぞれ285Bと1.6Tのパラメータを持ち、DSA2疎注意力（DSA+NSA）、head-dim512、Sparse MQA、SWAを採用、MoE384エキスパートを6つずつアクティブ化し、Fused Mega-KernelとHyper-Connectionsと組み合わせている。訓練にはMuonオプティマイザを使用し、32Kのコンテキスト、RL段階ではGRPO+KL補正を行い、最終的にコンテキストを1Mに拡張。モダリティは純テキスト。張某はDeepSeekに在籍しておらず、公式からの回答は未だない。

MeNews

2026-04-22 16:20:18

概要作成中

MEニュース、4月22日（UTC+8）、動察Beatingの監測によると、プリンストン大学の博士課程学生Yifan ZhangがXでDeepSeek V4の技術詳細を更新しました。彼は4月19日に「V4は来週」と予告し、3つのアーキテクチャコンポーネントの名称を挙げ、今夜完全なパラメータ表を公開するとともに、初めて285Bパラメータの軽量版V4-Liteの存在を明らかにしました。V4の総パラメータ数は1.6Tです。注意機構はDSA2で、DeepSeekの以前のV3.2で使用されたDSA（DeepSeek Sparse Attention）と今年初めに論文で提案されたNSA（Native Sparse Attention）の2つの疎な注意力スキームを組み合わせています。head-dimは512で、Sparse MQAとSWA（スライディングウィンドウ注意）と併用しています。MoE層は合計384のエキスパートを持ち、毎回6つをアクティブにし、Fused MoE Mega-Kernelを使用しています。残差接続はHyper-Connectionsを採用しています。訓練段階で初めて公開された詳細には、最適化器にMuon（ニュートン-シュルツ正規化を動量更新に適用した行列レベルの最適化器）を使用、事前学習のコンテキスト長は32K、強化学習段階ではGRPOを用い、KLダイバージェンスの補正を追加しています。最終的なコンテキスト長は1Mに拡張されました。モダリティは純テキストです。ZhangはDeepSeekに所属しておらず、DeepSeek公式はこれらの情報に対してコメントしていません。（出典：BlockBeats）

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
リポスト
共有

コメントを追加

コメントなし

人気の話題
もっと見る
#
Gate13thAnniversaryLive
1.21M 人気度
#
WCTCTradingChallengeShare8MUSDT
794.55K 人気度
#
BitcoinBouncesBack
210.45K 人気度
#
IsraelStrikesIranBTCPlunges
30.66K 人気度
#
EthereumMemeSeasonReturns
2M 人気度

ピン

サイトマップ

Yifan Zhang披露DeepSeek V4完整技术规格：1.6T参数、384专家激活6个

人気の話題

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

EthereumMemeSeasonReturns

ピン