ME News 消息、4 月 24 日（UTC+8）、動察 Beating のモニタリングによると、DeepSeek は V4 シリーズのプレビュー版をオープンソース化し、MIT ライセンスを採用。重みは既に Hugging Face と ModelScope にアップロードされている。シリーズには 2 つの MoE モデルが含まれる：V4-Pro は総パラメータ 1.6T、トークンあたりの活性化パラメータ 49B（490 億）；V4-Flash は総パラメータ 284B（2840 億）、活性化パラメータ 13B（130 億）。両モデルとも 1M トークンのコンテキストをサポートする。アーキテクチャの 3 つのアップグレード：混合アテンション機構（圧縮スパースアテンション CSA + 高圧縮アテンション HCA）により長コンテキストのオーバーヘッドを大幅に削減、1M コンテキスト下で V4-Pro のトークンあたりの推論 FLOPs は V3.2 の 27% に、KV キャッシュ（推論時に履歴情報を保存するためのメモリ使用量）は V3.2 の 10% に低減；多様体制約超接続 mHC が従来の残差接続を置き換え、層間の信号伝播の安定性を強化；訓練は Muon 最適化器に切り替え収束を高速化。事前学習データは 32T トークンを超える。事後訓練は 2 段階：まず SFT と GRPO 強化学習で各分野の専門家モデルを個別に訓練し、その後オンライン蒸留で統合して 1 つのモデルにまとめる。V4-Pro-Max（最高推論強度モード）は現在最も強力なオープンソースモデルと自称し、コーディングベンチマークでトップレベルに達し、推論およびエージェントタスクにおいてクローズドソースの最先端との差を大幅に縮めた。V4-Flash-Max は十分な思考予算を与えられた場合、推論性能は Pro に近づくが、純粋な知識や複雑なエージェントタスクではパラメータ規模の制約を受ける。重みは FP4+FP8 混合精度で保存される。（出典：BlockBeats）

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
リポスト
共有

コメントを追加

コメントなし

人気の話題
もっと見る
#
GateCompletesDividendDistribution
534.41K 人気度
#
CirclePlunges17%
4.16M 人気度
#
IsraelStrikesIranBTCPlunges
67.51K 人気度
#
PredictWorldCupShare20000U
163.75K 人気度
#
GateCardPointsSystemLaunched
120.19K 人気度

ピン留め

サイトマップ

DeepSeek V4発表：1.6Tパラメータのフラグシップが1Mコンテキストをサポート、推論計算能力はV3.2の27%のみ

人気の話題

GateCompletesDividendDistribution

CirclePlunges17%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

GateCardPointsSystemLaunched

ピン留め