DeepSeekがオープンソースの推論加速フレームワークDeepSpecを公開、DSparkの投入によりV4モデルの速度が最大85%向上

robot
概要作成中

据动察 Beating のモニタリングによると、DeepSeekは北京大学と協力して投機的サンプリング高速化フレームワークDSparkのテクニカルレポートを公開し、フルスタックコードライブラリDeepSpecをオープンソース化しました。現在、DSparkはDeepSeek-V4のオンラインサービスに導入されています。出力を損なわないことを前提に、DSparkはFlash版の単一ユーザー生成速度を60%から85%向上させ、Pro版の速度を57%から78%向上させました。DSparkは従来の単一トークン多分岐予測(MTP-1)ベースラインを上回り、厳しい遅延制約の下でシステム全体のスループットを大幅に引き上げました。

これまで、マルチトークン投機的サンプリングはオンライン本番環境での導入が困難でした。自己回帰ドラフトモデルの生成が遅すぎる一方、並列ドラフトモデルは各位置が独立して予測するため、長い系列の後半部分の受容率が極めて低くなります。高並行環境で盲目的にマルチトークンドラフトを検証すると、大モデルは拒否されることが確定している誤字の検証に大量の計算リソースを浪費し、システム全体のスループットが著しく低下するため、業界ではオンラインでは単一トークン予測(MTP-1)に限定されていました。

DSparkは高並行環境下でのスループット劣化のボトルネックを克服しました。DSparkはまずDFlash並列バックボーンネットワークを使用して隠れ状態を生成し、次に極めて軽量なマルコフヘッドを追加します。マルコフヘッドはテーブルルックアップと1回の行列乗算により、非常に低コストで隣接単語の関連性を逐次注入します。同時に、システムは信頼度予測ヘッドと事後キャリブレーションアルゴリズムを統合します。本番環境でのゼロオーバーヘッドスケジューリングとの完全な互換性を確保し、将来の情報漏洩を防ぐために、スケジューラは非同期メカニズムを採用し、2ステップ前の履歴予測を利用して候補語のトリミング長を動的に決定し、大モデルが高負荷時にリスクの高い末尾の誤字を検証するのを完全に防止します。

DSparkに加えて、DeepSeekが今回オープンソース化したDeepSpecコードライブラリは、Qwen3やGemmaなどのオープンソース大モデルを内蔵サポートしています。DeepSpecは、プロンプトのダウンロード、大モデルキャッシュの再構築、ドラフトモデルのトレーニングからベンチマーク評価までの完全なPythonツールチェーンを提供します。開発者はオープンソーススクリプトを直接利用して、ローカルで異なるオープンソース大モデル向けに専用の高速化モジュールをカスタマイズし、デプロイできます。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし