剛剛,DeepSeek V4 進行了一次更新。
新推出了投機解碼(Speculative Decoding)框架 DSpark,並同步開源了支撐該版本的全棧推測性解碼框架 DeepSpec。
DeepSeek-V4-Pro-DSpark 並非全新架構模型,而是在 DeepSeek-V4-Pro 基礎上引入了推測性解碼模組。此次更新的重點在於工程落地,而非模型能力本身的迭代。
DSpark 已被部署在 DeepSeek-V4(Flash 和 Pro)的真實線上流量中,大幅加速了大語言模型(LLM)的推理速度。
技術報告:《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》
技術報告連結:https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf
DSpark 的核心初衷是解決在生產環境中(尤其是高並發場景下)LLM 推理面臨的延遲和吞吐量瓶頸。簡而言之,DSpark 成功地將高吞吐量的「並行生成」與自適應的「負載感知驗證」結合在了一起。
推測性解碼是一種在不改變模型輸出分佈的前提下加速大語言模型推理的技術。其核心思路是引入一個輕量級的「草稿模型」(draft model),預先生成若干候選 token,再由目標模型(target model)對這批候選進行批量驗證和接受,從而將串行逐 token 生成轉變為並行批量校驗,大幅降低端到端延遲。
在此基礎上,DSpark 的創新在於引入半自回歸生成架構(Semi-Autoregressive Generation):它保留並行草稿模型的高吞吐優勢,同時加入輕量級串行模組,對 block 內 token 之間的依賴關係進行建模,以緩解並行草稿模型在後續位置上容易出現的接受率衰減問題。
除此之外還有硬體感知的置信度調度驗證(Confidence-Scheduled Verification):以往的投機解碼通常會盲目地把生成的草稿 Token 全部送去驗證,在系統高負載時,這些極大概率會被拒絕的尾部 Token 會嚴重浪費寶貴的批處理算力。DSpark 引入了一個置信度頭(Confidence Head)來評估每個 Token 的存活概率。結合硬體感知前綴調度器,系統能夠根據實時的引擎吞吐量特徵,動態為每個請求量身定制最優的驗證長度,將算力只分配給預期回報最高的 Token。
為了在真實的線上基礎設施中落地,DSpark 的調度器採用了異步機制,以兼容零開銷調度(ZOS)和連續的 CUDA 圖回放。它利用前兩步的歷史預測來決定當前的動態截斷長度,從而隱藏了調度延遲,避免了 GPU 流水線停頓,同時保證了目標模型輸出分佈的完全無損還原。
在涵蓋數學推理、程式碼生成和日常對話等多個領域的測試中,DSpark 大幅超越了目前最先進的自回歸模型(Eagle3)和並行草稿模型(DFlash)。例如,在 Qwen3 系列(4B、8B、14B)目標模型上,其平均接受長度比 Eagle3 提升了 26.7% 到 30.9%,比 DFlash 提升了 16.3% 到 18.4%。
相比於前一代部署的單 Token 生產基準(MTP-1),在維持相同總體吞吐量的情況下,DSpark 將用戶的生成速度分別提升了 60%-85%(Flash 模型)和 57%-78%(Pro 模型)。
隨 DSpark 一同開源的還有 DeepSpec,這是一個用於訓練和評估推測性解碼草稿模型的全棧程式碼庫。是承載這個方案以及其他前沿算法實現的「開源基礎設施」,包含數據準備工具、草稿模型實現、訓練程式碼和評估腳本。
DeepSpec 將整體流程拆分為三個階段:數據準備、訓練和評估。三個階段需要按順序運行,前一階段的輸出會作為後一階段的輸入。
數據準備階段,需下載提示詞數據、使用推理引擎對目標模型重新生成答案,並構建目標緩存(target cache)。值得注意的是,以預設的 Qwen/Qwen3-4B 配置為例,目標緩存體積可達約 38 TB,使用前需充分評估存儲資源。
訓練階段可透過 bash scripts/train/train.sh 啟動。該腳本會呼叫 train.py,並為每張可見 GPU 啟動一個 worker。用戶可以透過指定 config_path,在 config/ 目錄下選擇不同算法和目標模型配置。項目也支持通過覆蓋 config_path、target_cache_dir,以及使用 --opts 修改單個配置字段來調整訓練設置。
硬體方面,DeepSpec 默認配置和腳本面向單節點 8 卡環境。如果 GPU 數量較少,用戶需要相應減少 CUDA_VISIBLE_DEVICES 中的可見 GPU 數量。
評估階段則通過 bash scripts/eval/eval.sh 啟動。評估腳本會使用訓練好的草稿模型 checkpoint,在多個 speculative decoding 基準任務上衡量接受情況。項目當前列出的評估數據集包括 GSM8K、MATH500、AIME25、HumanEval、MBPP、LiveCodeBench、MT-Bench、Alpaca 和 Arena-Hard-v2,涵蓋數學推理、程式碼生成、對話能力和綜合問答等不同任務類型。
算法方面,DeepSpec 目前內置三種草稿模型:DSpark、DFlash 和 Eagle3。目標模型系列方面,項目當前支持 Qwen3 和 Gemma。
DeepSpec 的開源,將推測性解碼這一此前多散落於各研究團隊內部的工程實踐,整合為一套可復現、可擴展的標準化工具鏈。對於希望為自有大模型加速推理的研究者和工程師而言,這意味著可以直接在成熟框架上訓練定製草稿模型,跳過大量重複的基礎設施搭建工作。
本文來源:機器之心
風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
159.76萬 熱度
20.19萬 熱度
33.98萬 熱度
18.42萬 熱度
99.8萬 熱度
刚刚,DSpark更新令推理速度提升80%。
剛剛,DeepSeek V4 進行了一次更新。
新推出了投機解碼(Speculative Decoding)框架 DSpark,並同步開源了支撐該版本的全棧推測性解碼框架 DeepSpec。
DeepSeek-V4-Pro-DSpark 並非全新架構模型,而是在 DeepSeek-V4-Pro 基礎上引入了推測性解碼模組。此次更新的重點在於工程落地,而非模型能力本身的迭代。
DSpark 已被部署在 DeepSeek-V4(Flash 和 Pro)的真實線上流量中,大幅加速了大語言模型(LLM)的推理速度。
技術報告:《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》
技術報告連結:https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf
DSpark 的核心初衷是解決在生產環境中(尤其是高並發場景下)LLM 推理面臨的延遲和吞吐量瓶頸。簡而言之,DSpark 成功地將高吞吐量的「並行生成」與自適應的「負載感知驗證」結合在了一起。
推測性解碼是一種在不改變模型輸出分佈的前提下加速大語言模型推理的技術。其核心思路是引入一個輕量級的「草稿模型」(draft model),預先生成若干候選 token,再由目標模型(target model)對這批候選進行批量驗證和接受,從而將串行逐 token 生成轉變為並行批量校驗,大幅降低端到端延遲。
在此基礎上,DSpark 的創新在於引入半自回歸生成架構(Semi-Autoregressive Generation):它保留並行草稿模型的高吞吐優勢,同時加入輕量級串行模組,對 block 內 token 之間的依賴關係進行建模,以緩解並行草稿模型在後續位置上容易出現的接受率衰減問題。
除此之外還有硬體感知的置信度調度驗證(Confidence-Scheduled Verification):以往的投機解碼通常會盲目地把生成的草稿 Token 全部送去驗證,在系統高負載時,這些極大概率會被拒絕的尾部 Token 會嚴重浪費寶貴的批處理算力。DSpark 引入了一個置信度頭(Confidence Head)來評估每個 Token 的存活概率。結合硬體感知前綴調度器,系統能夠根據實時的引擎吞吐量特徵,動態為每個請求量身定制最優的驗證長度,將算力只分配給預期回報最高的 Token。
為了在真實的線上基礎設施中落地,DSpark 的調度器採用了異步機制,以兼容零開銷調度(ZOS)和連續的 CUDA 圖回放。它利用前兩步的歷史預測來決定當前的動態截斷長度,從而隱藏了調度延遲,避免了 GPU 流水線停頓,同時保證了目標模型輸出分佈的完全無損還原。
在涵蓋數學推理、程式碼生成和日常對話等多個領域的測試中,DSpark 大幅超越了目前最先進的自回歸模型(Eagle3)和並行草稿模型(DFlash)。例如,在 Qwen3 系列(4B、8B、14B)目標模型上,其平均接受長度比 Eagle3 提升了 26.7% 到 30.9%,比 DFlash 提升了 16.3% 到 18.4%。
相比於前一代部署的單 Token 生產基準(MTP-1),在維持相同總體吞吐量的情況下,DSpark 將用戶的生成速度分別提升了 60%-85%(Flash 模型)和 57%-78%(Pro 模型)。
隨 DSpark 一同開源的還有 DeepSpec,這是一個用於訓練和評估推測性解碼草稿模型的全棧程式碼庫。是承載這個方案以及其他前沿算法實現的「開源基礎設施」,包含數據準備工具、草稿模型實現、訓練程式碼和評估腳本。
DeepSpec 將整體流程拆分為三個階段:數據準備、訓練和評估。三個階段需要按順序運行,前一階段的輸出會作為後一階段的輸入。
數據準備階段,需下載提示詞數據、使用推理引擎對目標模型重新生成答案,並構建目標緩存(target cache)。值得注意的是,以預設的 Qwen/Qwen3-4B 配置為例,目標緩存體積可達約 38 TB,使用前需充分評估存儲資源。
訓練階段可透過 bash scripts/train/train.sh 啟動。該腳本會呼叫 train.py,並為每張可見 GPU 啟動一個 worker。用戶可以透過指定 config_path,在 config/ 目錄下選擇不同算法和目標模型配置。項目也支持通過覆蓋 config_path、target_cache_dir,以及使用 --opts 修改單個配置字段來調整訓練設置。
硬體方面,DeepSpec 默認配置和腳本面向單節點 8 卡環境。如果 GPU 數量較少,用戶需要相應減少 CUDA_VISIBLE_DEVICES 中的可見 GPU 數量。
評估階段則通過 bash scripts/eval/eval.sh 啟動。評估腳本會使用訓練好的草稿模型 checkpoint,在多個 speculative decoding 基準任務上衡量接受情況。項目當前列出的評估數據集包括 GSM8K、MATH500、AIME25、HumanEval、MBPP、LiveCodeBench、MT-Bench、Alpaca 和 Arena-Hard-v2,涵蓋數學推理、程式碼生成、對話能力和綜合問答等不同任務類型。
算法方面,DeepSpec 目前內置三種草稿模型:DSpark、DFlash 和 Eagle3。目標模型系列方面,項目當前支持 Qwen3 和 Gemma。
DeepSpec 的開源,將推測性解碼這一此前多散落於各研究團隊內部的工程實踐,整合為一套可復現、可擴展的標準化工具鏈。對於希望為自有大模型加速推理的研究者和工程師而言,這意味著可以直接在成熟框架上訓練定製草稿模型,跳過大量重複的基礎設施搭建工作。
本文來源:機器之心
風險提示及免責條款