據動察 Beating 監測,DeepSeek 聯合北京大學發表投機採樣加速框架 DSpark 的技術報告,並開源了全棧程式碼庫 DeepSpec。
目前 DSpark 已部署於 DeepSeek-V4 線上業務。
在保證輸出無損的前提下,DSpark 將 Flash 版單用戶生成速度提升 60% 至 85%,Pro 版速度提升 57% 至 78%。
DSpark 表現超越了原有的單 Token 多分支預測(MTP-1)基線,在嚴格時延約束下顯著拉高了系統整體吞吐量。
此前,多 Token 投機採樣難以在線上生產環境落地。
自回歸草稿模型生成太慢,而並行草稿模型由於各位置獨立預測,導致長序列的後半截接受率極低。
若在高併發下盲目驗證多 Token 草稿,大模型會浪費大量算力去驗證註定被拒絕的錯字,導致系統整體吞吐量嚴重崩潰,因此業界在線上多侷限於單 Token 預測(MTP-1)。
DSpark 克服了高併發下的吞吐退化瓶頸。
DSpark 首先採用 DFlash 並行主幹網生成隱藏狀態,再追加極其輕量的馬爾可夫頭。
馬爾可夫頭透過查表與一次矩陣乘法,以極低成本串行注入相鄰詞的關聯。
同時,系統集成置信度預測頭與後驗校準演算法。
為了完美兼容生產環境的零開銷調度並防止未來資訊洩漏,調度器採用非同步機制,利用兩步前的歷史預測來動態決定候選詞裁剪長度,徹底防止大模型在重負載下驗證高風險的尾部錯字。
除了 DSpark,DeepSeek 這次開源的 DeepSpec 程式碼庫內建支援 Qwen3 與 Gemma 等開源大模型。
DeepSpec 提供了從下載提示詞、重建大模型快取、訓練草稿模型到基準評估的完整 Python 工具鏈。
開發者可以直接利用開源腳本,在本地為不同的開源大模型定製並部署專屬的加速模組。
162.29萬 熱度
47.38萬 熱度
36.1萬 熱度
59.34萬 熱度
100.02萬 熱度
DeepSeek開源推理加速框架DeepSpec,上線DSpark讓V4模型速度提升最高85%
據動察 Beating 監測,DeepSeek 聯合北京大學發表投機採樣加速框架 DSpark 的技術報告,並開源了全棧程式碼庫 DeepSpec。
目前 DSpark 已部署於 DeepSeek-V4 線上業務。
在保證輸出無損的前提下,DSpark 將 Flash 版單用戶生成速度提升 60% 至 85%,Pro 版速度提升 57% 至 78%。
DSpark 表現超越了原有的單 Token 多分支預測(MTP-1)基線,在嚴格時延約束下顯著拉高了系統整體吞吐量。
此前,多 Token 投機採樣難以在線上生產環境落地。
自回歸草稿模型生成太慢,而並行草稿模型由於各位置獨立預測,導致長序列的後半截接受率極低。
若在高併發下盲目驗證多 Token 草稿,大模型會浪費大量算力去驗證註定被拒絕的錯字,導致系統整體吞吐量嚴重崩潰,因此業界在線上多侷限於單 Token 預測(MTP-1)。
DSpark 克服了高併發下的吞吐退化瓶頸。
DSpark 首先採用 DFlash 並行主幹網生成隱藏狀態,再追加極其輕量的馬爾可夫頭。
馬爾可夫頭透過查表與一次矩陣乘法,以極低成本串行注入相鄰詞的關聯。
同時,系統集成置信度預測頭與後驗校準演算法。
為了完美兼容生產環境的零開銷調度並防止未來資訊洩漏,調度器採用非同步機制,利用兩步前的歷史預測來動態決定候選詞裁剪長度,徹底防止大模型在重負載下驗證高風險的尾部錯字。
除了 DSpark,DeepSeek 這次開源的 DeepSpec 程式碼庫內建支援 Qwen3 與 Gemma 等開源大模型。
DeepSpec 提供了從下載提示詞、重建大模型快取、訓練草稿模型到基準評估的完整 Python 工具鏈。
開發者可以直接利用開源腳本,在本地為不同的開源大模型定製並部署專屬的加速模組。