DeepSeek V4 Dirilis: Model Flagship 1,6T Parameter Mendukung Konteks 1M, Daya Komputasi Inferensi Hanya 27% dari V3.2

ME News消息,4月24日(UTC+8),据动察Beating监测,DeepSeek开源V4系列预览版,MIT许可,权重已上线Hugging Face和ModelScope。系列含两款MoE模型:V4-Pro总参数1.6T、每token激活49B(490亿);V4-Flash总参数284B(2840亿)、激活13B(130亿)。两款均支持1M token上下文。架构三项升级:混合注意力机制(压缩稀疏注意力CSA + 重度压缩注意力HCA)大幅降低长上下文开销,1M上下文下V4-Pro单token推理FLOPs仅为V3.2的27%,KV缓存(推理时存储历史信息的显存占用)仅为V3.2的10%;流形约束超连接mHC替代传统残差连接,增强跨层信号传播稳定性;训练改用Muon优化器加速收敛。预训练数据超32T token。后训练分两阶段:先用SFT和GRPO强化学习分别训练各领域专家,再用在线蒸馏统一合并成一个模型。V4-Pro-Max(最高推理力度模式)自称当前最强开源模型,编码基准达到顶级,推理和agent任务与闭源前沿差距显著缩小。V4-Flash-Max在给足思考预算后推理表现接近Pro,但纯知识和复杂agent任务上受限于参数规模。权重以FP4+FP8混合精度存储。(来源:BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan