广场
最新
热门
资讯
我的主页
发布
DeepSeek开源推理加速框架DeepSpec,上线DSpark让V4模型速度提升最高85%
区块律动
2026-06-27 14:12:31
关注
摘要生成中
据动察 Beating 监测,DeepSeek 联合北京大学发布投机采样加速框架 DSpark 的技术报告,并开源了全栈代码库 DeepSpec。目前 DSpark 已部署于 DeepSeek-V4 线上业务。在保证输出无损的前提下,DSpark 将 Flash 版单用户生成速度提升 60% 至 85%,Pro 版速度提升 57% 至 78%。DSpark 表现超越了原有的单 Token 多分支预测(MTP-1)基线,在严格时延约束下显著拉高了系统整体吞吐量。
此前,多 Token 投机采样难以在线上生产环境落地。自回归草稿模型生成太慢,而并行草稿模型由于各位置独立预测,导致长序列的后半截接受率极低。若在高并发下盲目验证多 Token 草稿,大模型会浪费大量算力去验证注定被拒绝的错字,导致系统整体吞吐量严重崩溃,因此业界在线上多局限于单 Token 预测(MTP-1)。
DSpark 克服了高并发下的吞吐退化瓶颈。DSpark 首先采用 DFlash 并行主干网生成隐藏状态,再追加极其轻量的马尔可夫头。马尔可夫头通过查表与一次矩阵乘法,以极低成本串行注入相邻词的关联。同时,系统集成置信度预测头与后验校准算法。为了完美兼容生产环境的零开销调度并防止未来信息泄漏,调度器采用异步机制,利用两步前的历史预测来动态决定候选词裁剪长度,彻底防止大模型在重负载下验证高风险的尾部错字。
除了 DSpark,DeepSeek 这次开源的 DeepSpec 代码库内置支持 Qwen3 与 Gemma 等开源大模型。DeepSpec 提供了从下载提示词、重建大模型缓存、训练草稿模型到基准评估的完整 Python 工具链。开发者可以直接利用开源脚本,在本地为不同的开源大模型定制并部署专属的加速模块。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
赞赏
点赞
评论
转发
分享
评论
请输入评论内容
请输入评论内容
评论
暂无评论
热门话题
查看更多
#
0成本拿2股SK海力士
161.39万 热度
#
美光市值超越Meta跻身全美前十
47.16万 热度
#
哥伦比亚VS葡萄牙
35.87万 热度
#
美国5月PCE通胀升至4.1%创三年新高
59.05万 热度
#
USD1链上质押享年化9.48%
99.96万 热度
置顶
网站地图
DeepSeek开源推理加速框架DeepSpec,上线DSpark让V4模型速度提升最高85%
此前,多 Token 投机采样难以在线上生产环境落地。自回归草稿模型生成太慢,而并行草稿模型由于各位置独立预测,导致长序列的后半截接受率极低。若在高并发下盲目验证多 Token 草稿,大模型会浪费大量算力去验证注定被拒绝的错字,导致系统整体吞吐量严重崩溃,因此业界在线上多局限于单 Token 预测(MTP-1)。
DSpark 克服了高并发下的吞吐退化瓶颈。DSpark 首先采用 DFlash 并行主干网生成隐藏状态,再追加极其轻量的马尔可夫头。马尔可夫头通过查表与一次矩阵乘法,以极低成本串行注入相邻词的关联。同时,系统集成置信度预测头与后验校准算法。为了完美兼容生产环境的零开销调度并防止未来信息泄漏,调度器采用异步机制,利用两步前的历史预测来动态决定候选词裁剪长度,彻底防止大模型在重负载下验证高风险的尾部错字。
除了 DSpark,DeepSeek 这次开源的 DeepSpec 代码库内置支持 Qwen3 与 Gemma 等开源大模型。DeepSpec 提供了从下载提示词、重建大模型缓存、训练草稿模型到基准评估的完整 Python 工具链。开发者可以直接利用开源脚本,在本地为不同的开源大模型定制并部署专属的加速模块。