CursorはMoE推論最適化技術Warp Decodeを公開し、Blackwell GPUで1.84倍のスループット向上を実現

robot
概要作成中

1M AI Newsのモニタリングによると、AIプログラミングツールのCursorは、自社開発のMoE(Mixture of Experts:専門家混合)推論加速手法であるWarp Decodeを紹介する技術ブログを公開しました。この手法は、NVIDIAのBlackwell GPU上での小さなバッチのトークン生成シナリオを対象としており、従来の「専門家中心」の並列戦略を「出力中心」のアプローチへと切り替えます。具体的には、GPU内の各ワープ(32の並列処理ユニットで構成される最小のスケジューリング単位)が、単一の出力値の計算を担当し、割り当てられたすべてのルーティング対象エキスパート(専門家)をすべて独立して辿り、クロスワープの同期や中間バッファを介することなくレジスタ上で加算(accumulation)を完了させます。従来のMoE推論パイプラインは8つのステージで構成されており、そのうち5つは、実際の計算を行うのではなく、エキスパートビュー用のデータを移動することのみに割り当てられています。Warp Decodeは、MoEの計算レイヤー全体を2つのCUDAカーネルに圧縮し、パディング、スキャッタリング、マージなどの中間ステップを排除します。その結果、トークンあたりで32KB超の中間バッファの読み書きを削減できます。Qwen-3スタイルのモデルを用い、NVIDIAのB200 GPUでテストしたところ、Warp Decodeはエンドツーエンドのデコードスループットを1.84倍向上させました。さらに、BF16/FP32の精度での計算を完全に行うため、中間の量子化による損失を回避でき、その結果、出力精度は従来の経路と比べてFP32ベンチマークに対し1.4倍近い精度になりました。ハードウェア帯域の利用に関しては、バッチサイズが32の場合、スループットを3.95 TB/sまで維持し、B200のピーク帯域(6.8 TB/s)の約58%に相当しました。この最適化は、Cursorの自社開発プログラミングモデルであるComposerの開発イテレーションとバージョンリリースのペースを直接的に加速します。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン