DeepSeek開源推理加速框架DeepSpec,上線DSpark讓V4模型速度提升最高85%

robot
摘要生成中

據動察 Beating 監測,DeepSeek 聯合北京大學發表投機採樣加速框架 DSpark 的技術報告,並開源了全棧程式碼庫 DeepSpec。

目前 DSpark 已部署於 DeepSeek-V4 線上業務。

在保證輸出無損的前提下,DSpark 將 Flash 版單用戶生成速度提升 60% 至 85%,Pro 版速度提升 57% 至 78%。

DSpark 表現超越了原有的單 Token 多分支預測(MTP-1)基線,在嚴格時延約束下顯著拉高了系統整體吞吐量。

此前,多 Token 投機採樣難以在線上生產環境落地。

自回歸草稿模型生成太慢,而並行草稿模型由於各位置獨立預測,導致長序列的後半截接受率極低。

若在高併發下盲目驗證多 Token 草稿,大模型會浪費大量算力去驗證註定被拒絕的錯字,導致系統整體吞吐量嚴重崩潰,因此業界在線上多侷限於單 Token 預測(MTP-1)。

DSpark 克服了高併發下的吞吐退化瓶頸。

DSpark 首先採用 DFlash 並行主幹網生成隱藏狀態,再追加極其輕量的馬爾可夫頭。

馬爾可夫頭透過查表與一次矩陣乘法,以極低成本串行注入相鄰詞的關聯。

同時,系統集成置信度預測頭與後驗校準演算法。

為了完美兼容生產環境的零開銷調度並防止未來資訊洩漏,調度器採用非同步機制,利用兩步前的歷史預測來動態決定候選詞裁剪長度,徹底防止大模型在重負載下驗證高風險的尾部錯字。

除了 DSpark,DeepSeek 這次開源的 DeepSpec 程式碼庫內建支援 Qwen3 與 Gemma 等開源大模型。

DeepSpec 提供了從下載提示詞、重建大模型快取、訓練草稿模型到基準評估的完整 Python 工具鏈。

開發者可以直接利用開源腳本,在本地為不同的開源大模型定製並部署專屬的加速模組。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆