広場
最新
注目
ニュース
プロフィール
ポスト
DeepSeek V4発表:1.6Tパラメータのフラグシップが1Mコンテキストをサポート、推論計算能力はV3.2の27%のみ
MeNews
2026-07-01 22:27:04
フォロー
ME News 消息、4 月 24 日(UTC+8)、動察 Beating のモニタリングによると、DeepSeek は V4 シリーズのプレビュー版をオープンソース化し、MIT ライセンスを採用。重みは既に Hugging Face と ModelScope にアップロードされている。シリーズには 2 つの MoE モデルが含まれる:V4-Pro は総パラメータ 1.6T、トークンあたりの活性化パラメータ 49B(490 億);V4-Flash は総パラメータ 284B(2840 億)、活性化パラメータ 13B(130 億)。両モデルとも 1M トークンのコンテキストをサポートする。アーキテクチャの 3 つのアップグレード:混合アテンション機構(圧縮スパースアテンション CSA + 高圧縮アテンション HCA)により長コンテキストのオーバーヘッドを大幅に削減、1M コンテキスト下で V4-Pro のトークンあたりの推論 FLOPs は V3.2 の 27% に、KV キャッシュ(推論時に履歴情報を保存するためのメモリ使用量)は V3.2 の 10% に低減;多様体制約超接続 mHC が従来の残差接続を置き換え、層間の信号伝播の安定性を強化;訓練は Muon 最適化器に切り替え収束を高速化。事前学習データは 32T トークンを超える。事後訓練は 2 段階:まず SFT と GRPO 強化学習で各分野の専門家モデルを個別に訓練し、その後オンライン蒸留で統合して 1 つのモデルにまとめる。V4-Pro-Max(最高推論強度モード)は現在最も強力なオープンソースモデルと自称し、コーディングベンチマークでトップレベルに達し、推論およびエージェントタスクにおいてクローズドソースの最先端との差を大幅に縮めた。V4-Flash-Max は十分な思考予算を与えられた場合、推論性能は Pro に近づくが、純粋な知識や複雑なエージェントタスクではパラメータ規模の制約を受ける。重みは FP4+FP8 混合精度で保存される。(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
報酬
いいね
コメント
リポスト
共有
コメント
コメントを追加
コメントを追加
コメント
コメントなし
人気の話題
もっと見る
#
GateCompletesDividendDistribution
534.41K 人気度
#
CirclePlunges17%
4.16M 人気度
#
IsraelStrikesIranBTCPlunges
67.51K 人気度
#
PredictWorldCupShare20000U
163.75K 人気度
#
GateCardPointsSystemLaunched
120.19K 人気度
ピン留め
サイトマップ
DeepSeek V4発表:1.6Tパラメータのフラグシップが1Mコンテキストをサポート、推論計算能力はV3.2の27%のみ