广场
最新
热门
资讯
我的主页
发布
DeepSeek V4发布:1.6T参数旗舰支持1M上下文,推理算力仅V3.2的27%
ME News
2026-07-01 22:27:04
关注
ME News 消息,4 月 24 日(UTC+8),据 动察 Beating 监测,DeepSeek 开源 V4 系列预览版,MIT 许可,权重已上线 Hugging Face 和 ModelScope。系列含两款 MoE 模型:V4-Pro 总参数 1.6T、每 token 激活 49B(490 亿);V4-Flash 总参数 284B(2840 亿)、激活 13B(130 亿)。两款均支持 1M token 上下文。 架构三项升级:混合注意力机制(压缩稀疏注意力 CSA + 重度压缩注意力 HCA)大幅降低长上下文开销,1M 上下文下 V4-Pro 单 token 推理 FLOPs 仅为 V3.2 的 27%,KV 缓存(推理时存储历史信息的显存占用)仅为 V3.2 的 10%;流形约束超连接 mHC 替代传统残差连接,增强跨层信号传播稳定性;训练改用 Muon 优化器加速收敛。预训练数据超 32T token。 后训练分两阶段:先用 SFT 和 GRPO 强化学习分别训练各领域专家,再用在线蒸馏统一合并成一个模型。V4-Pro-Max(最高推理力度模式)自称当前最强开源模型,编码基准达到顶级,推理和 agent 任务与闭源前沿差距显著缩小。V4-Flash-Max 在给足思考预算后推理表现接近 Pro,但纯知识和复杂 agent 任务上受限于参数规模。权重以 FP4+FP8 混合精度存储。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
赞赏
点赞
评论
转发
分享
评论
请输入评论内容
请输入评论内容
评论
暂无评论
热门话题
查看更多
#
Gate股票转仓功能上线
53.25万 热度
#
Circle股价重挫17%
416.28万 热度
#
预测世界杯葡萄牙VS克罗地亚
16.08万 热度
#
GateCard上线积分体系
11.96万 热度
#
非农数据倒计时
90.02万 热度
置顶
网站地图
DeepSeek V4发布:1.6T参数旗舰支持1M上下文,推理算力仅V3.2的27%