DeepSeek công bố mã nguồn mở framework tăng tốc suy luận DeepSpec, ra mắt DSpark giúp tốc độ mô hình V4 tăng lên đến 85%.

robot
Đang tạo bản tóm tắt

据动察 Beating 监测,DeepSeek 联合北京大学发布投机采样加速框架 DSpark 的技术报告,并开源了全栈代码库 DeepSpec。目前 DSpark 已部署于 DeepSeek-V4 线上业务。在保证输出无损的前提下,DSpark 将 Flash 版单用户生成速度提升 60% 至 85%,Pro 版速度提升 57% 至 78%。DSpark 表现超越了原有的单 Token 多分支预测(MTP-1)基线,在严格时延约束下显著拉高了系统整体吞吐量。

此前,多 Token 投机采样难以在线上生产环境落地。自回归草稿模型生成太慢,而并行草稿模型由于各位置独立预测,导致长序列的后半截接受率极低。若在高并发下盲目验证多 Token 草稿,大模型会浪费大量算力去验证注定被拒绝的错字,导致系统整体吞吐量严重崩溃,因此业界在线上多局限于单 Token 预测(MTP-1)。

DSpark 克服了高并发下的吞吐退化瓶颈。DSpark 首先采用 DFlash 并行主干网生成隐藏状态,再追加极其轻量的马尔可夫头。马尔可夫头通过查表与一次矩阵乘法,以极低成本串行注入相邻词的关联。同时,系统集成置信度预测头与后验校准算法。为了完美兼容生产环境的零开销调度并防止未来信息泄漏,调度器采用异步机制,利用两步前的历史预测来动态决定候选词裁剪长度,彻底防止大模型在重负载下验证高风险的尾部错字。

除了 DSpark,DeepSeek 这次开源的 DeepSpec 代码库内置支持 Qwen3 与 Gemma 等开源大模型。DeepSpec 提供了从下载提示词、重建大模型缓存、训练草稿模型到基准评估的完整 Python 工具链。开发者可以直接利用开源脚本,在本地为不同的开源大模型定制并部署专属的加速模块。

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận