先ほど、DeepSeek V4がDSparkを更新し、推論速度が80%向上しました。

robot
概要作成中

先ほど、DeepSeek V4がアップデートを実施しました。

新たに投機的デコード(Speculative Decoding)フレームワーク「DSpark」が発表され、併せてこのバージョンを支えるフルスタックの投機的デコードフレームワーク「DeepSpec」がオープンソース化されました。

DeepSeek-V4-Pro-DSparkは、全く新しいアーキテクチャのモデルではなく、DeepSeek-V4-Proに投機的デコードモジュールを導入したものです。今回のアップデートの重点はモデル能力そのものの反復ではなく、実装面での応用にあります。

DSparkは既にDeepSeek-V4(FlashおよびPro)の実際のオンライントラフィックに展開され、大規模言語モデル(LLM)の推論速度を大幅に高速化しています。

  • テクニカルレポート:『DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation』

  • テクニカルレポートリンク:https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

DSparkの中心的な目的は、本番環境(特に高同時実行シナリオ)におけるLLM推論のレイテンシとスループットのボトルネックを解決することです。簡単に言えば、DSparkは高スループットの「並列生成」と適応型の「負荷認識検証」を組み合わせることに成功しています。

投機的デコードは、モデルの出力分布を変更せずに大規模言語モデルの推論を高速化する技術です。その核となるアイデアは、軽量な「ドラフトモデル」を導入し、事前に複数の候補トークンを生成し、ターゲットモデルがこれらの候補を一括で検証・受け入れることで、逐次的な1トークン生成を並列的な一括検証に変え、エンドツーエンドのレイテンシを大幅に削減することです。

この上で、DSparkの革新性は半自己回帰生成アーキテクチャ(Semi-Autoregressive Generation)の導入にあります。並列ドラフトモデルの高スループットの利点を維持しつつ、軽量な逐次モジュールを追加して、ブロック内のトークン間の依存関係をモデル化することで、後続の位置で生じやすい並列ドラフトモデルの受理率低下を緩和します。

さらに、ハードウェア認識型の信頼度スケジューリング検証(Confidence-Scheduled Verification)も導入されています。従来の投機的デコードでは、生成されたドラフトトークンを無条件に全て検証に送ることがよくありましたが、システムの負荷が高い場合、高い確率で拒否される末尾のトークンが貴重なバッチ処理能力を浪費します。DSparkは信頼度ヘッド(Confidence Head)を導入し、各トークンの生存確率を評価します。ハードウェア認識型のプレフィックススケジューラと組み合わせることで、システムはリアルタイムのエンジンスループット特性に基づいて、各リクエストに最適な検証長を動的に調整し、計算リソースを期待値が最も高いトークンにのみ割り当てます。

実際のオンラインインフラで実現するために、DSparkのスケジューラは非同期メカニズムを採用し、ゼロコストスケジューリング(ZOS)と連続的なCUDAグラフリプレイと互換性を持たせています。過去2ステップの履歴予測を用いて現在の動的切り詰め長を決定することで、スケジューリングレイテンシを隠蔽し、GPUパイプラインの停止を回避しつつ、ターゲットモデルの出力分布の完全な無損失再現を保証します。

数学的推論、コード生成、日常会話など様々な分野のテストにおいて、DSparkは現在の最先端の自己回帰モデル(Eagle3)や並列ドラフトモデル(DFlash)を大幅に上回りました。例えば、Qwen3シリーズ(4B、8B、14B)のターゲットモデルにおいて、平均受理長はEagle3比で26.7%から30.9%、DFlash比で16.3%から18.4%向上しました。

前世代で展開されたシングルトークン生成ベースライン(MTP-1)と比較して、同じ全体スループットを維持しながら、DSparkはユーザーの生成速度をそれぞれ60%〜85%(Flashモデル)および57%〜78%(Proモデル)向上させました。

DSparkと共にオープンソース化されたDeepSpecは、投機的デコード用のドラフトモデルを訓練・評価するためのフルスタックコードベースです。この方式および他の最先端アルゴリズムの実装を支える「オープンソースインフラ」であり、データ準備ツール、ドラフトモデルの実装、訓練コード、評価スクリプトを含みます。

DeepSpecは全体のプロセスを3つのフェーズに分割しています:データ準備、訓練、評価。3つのフェーズは順番に実行する必要があり、前のフェーズの出力が次のフェーズの入力となります。

データ準備フェーズでは、プロンプトデータをダウンロードし、推論エンジンを使用してターゲットモデルで回答を再生成し、ターゲットキャッシュ(target cache)を構築します。注意点として、デフォルトのQwen/Qwen3-4B設定の場合、ターゲットキャッシュの容量は約38 TBに達する可能性があるため、使用前にストレージリソースを十分に評価する必要があります。

訓練フェーズはbash scripts/train/train.shで起動できます。このスクリプトはtrain.pyを呼び出し、各可視GPUに対してワーカーを起動します。ユーザーはconfig_pathを指定することで、config/ディレクトリから異なるアルゴリズムやターゲットモデルの設定を選択できます。プロジェクトでは、config_path、target_cache_dirのオーバーライド、および--optsを使用した個別設定フィールドの変更による訓練設定の調整もサポートしています。

ハードウェア面では、DeepSpecのデフォルト設定とスクリプトは単一ノード8GPU環境を対象としています。GPUの数が少ない場合は、ユーザーはCUDA_VISIBLE_DEVICESで可視GPUの数を適宜減らす必要があります。

評価フェーズはbash scripts/eval/eval.shで起動します。評価スクリプトは訓練されたドラフトモデルのチェックポイントを使用し、複数の投機的デコードベンチマークタスクで受理状況を測定します。現在プロジェクトにリストされている評価データセットは、GSM8K、MATH500、AIME25、HumanEval、MBPP、LiveCodeBench、MT-Bench、Alpaca、Arena-Hard-v2で、数学的推論、コード生成、対話能力、総合的なQAなどさまざまなタスクタイプをカバーしています。

アルゴリズム面では、DeepSpecは現在3つのドラフトモデルを内蔵しています:DSpark、DFlash、Eagle3です。ターゲットモデルシリーズとしては、現在Qwen3とGemmaをサポートしています。

DeepSpecのオープンソース化により、これまで各研究チーム内に散在していた投機的デコードのエンジニアリング実践が、再現可能で拡張可能な標準化ツールチェーンとして統合されました。自社の大規模モデルの推論を高速化したい研究者やエンジニアにとって、これは成熟したフレームワーク上でカスタムドラフトモデルを直接訓練し、多くの重複するインフラ構築作業を省略できることを意味します。

本文ソース:机器之心(Jiqi Zhixin)

リスク注意事項及び免責条項

        市場にはリスクが伴い、投資には注意が必要です。本記事は個人の投資アドバイスを構成するものではなく、個別ユーザーの特別な投資目標、財務状況、ニーズを考慮したものではありません。ユーザーは本記事の意見、見解、結論が自身の特定の状況に適合するかどうかを検討する必要があります。これに基づく投資は、自己責任で行ってください。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし