廣場
最新
熱門
新聞
我的主頁
發布
DeepSeek V4發布:1.6T參數旗艦支援1M上下文,推理算力僅V3.2的27%
ME News
2026-07-01 22:27:04
關注
ME News 消息,4 月 24 日(UTC+8),據 動察 Beating 監測,DeepSeek 開源 V4 系列預覽版,MIT 許可,權重已上線 Hugging Face 和 ModelScope。系列含兩款 MoE 模型:V4-Pro 總參數 1.6T、每 token 激活 49B(490 億);V4-Flash 總參數 284B(2840 億)、激活 13B(130 億)。兩款均支援 1M token 上下文。 架構三項升級:混合注意力機制(壓縮稀疏注意力 CSA + 重度壓縮注意力 HCA)大幅降低長上下文開銷,1M 上下文下 V4-Pro 單 token 推理 FLOPs 僅為 V3.2 的 27%,KV 快取(推理時存儲歷史資訊的顯存佔用)僅為 V3.2 的 10%;流形約束超連接 mHC 替代傳統殘差連接,增強跨層訊號傳播穩定性;訓練改用 Muon 優化器加速收斂。預訓練資料超 32T token。 後訓練分兩階段:先用 SFT 和 GRPO 強化學習分別訓練各領域專家,再用線上蒸餾統一合併成一個模型。V4-Pro-Max(最高推理力度模式)自稱當前最強開源模型,編碼基準達到頂級,推理和 agent 任務與閉源前沿差距顯著縮小。V4-Flash-Max 在給足思考預算後推理表現接近 Pro,但純知識和複雜 agent 任務上受限於參數規模。權重以 FP4+FP8 混合精度儲存。 (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
打賞
按讚
回覆
轉發
分享
回覆
請輸入回覆內容
請輸入回覆內容
回覆
暫無回覆
熱門話題
查看更多
#
Gate股票轉倉功能上線
52.9萬 熱度
#
Circle股價重挫17%
651.25萬 熱度
#
預測世界盃葡萄牙VS克羅地亞
15.96萬 熱度
#
GateCard上線積分體系
11.76萬 熱度
#
非農數據倒計時
89.98萬 熱度
已置頂
網站地圖
DeepSeek V4發布:1.6T參數旗艦支援1M上下文,推理算力僅V3.2的27%