CursorがMoE推論最適化技術Warp Decodeを公開、Blackwell GPUでスループットが1.84倍向上

robot
概要作成中

1M AIニュースのモニタリングによると、AIプログラミングツールのCursorが技術ブログを公開し、自社開発のMoE(ミクスド・エキスパート・モデル)推論の高速化手法であるWarp Decodeを紹介した。この手法は、NVIDIA Blackwell GPU上での小バッチのtoken生成シナリオを対象としており、従来の「エキスパート中心」の並列戦略を「出力中心」へと反転させる。GPU内の各warp(32の並列処理ユニットで構成される最小のスケジューリング単位)は、出力値を1つ計算するだけに責務を絞り、ルーティングされたすべてのエキスパートを独立して走査し、レジスタ上で加算を完了する。warp間の同期や中間バッファは不要。

従来のMoE推論パイプラインは全8段階で構成され、そのうち5段階はエキスパートのビューへデータを運ぶためのもので、実際の計算は行わない。Warp Decodeは、MoE計算層全体を2つのCUDA kernelに圧縮し、パディング、分散、マージなどの中間ステップを省略した。各tokenあたり、32KB超の中間バッファの読み書きを削減する。

NVIDIA B200 GPU上で、Qwen-3スタイルのモデルで実測したところ、Warp Decodeによりエンドツーエンドのデコードスループットが1.84倍に向上した。さらに、全工程でBF16/FP32の精度計算を行い、中間の量子化による損失を回避したことで、出力精度は従来経路に比べてFP32基準値の1.4倍に近づいた。ハードウェア帯域の利用効率については、バッチサイズが32のときの継続スループットが3.95 TB/sで、B200のピーク帯域(6.8 TB/s)の58%に相当する。この最適化は、Cursorの自社開発プログラミングモデルComposerの研究開発の反復と、バージョンリリースの進行スピードを直接加速させた。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン