CursorがMoE推論最適化技術Warp Decodeを公開、Blackwell GPUでスループットが1.84倍向上

BlockBeatNews · 2026-04-07T01:21:09+00:00

Cursorは新しい技術ブログを公開し、そのMoE推論高速化手法Warp Decodeを紹介しました。この方法はNVIDIA Blackwell GPU上で小バッチのトークン生成を最適化し、中間バッファの読み書きを削減、スループットと出力精度を向上させ、直接的にそのプログラミングモデルの開発プロセスを加速しています。

BlockBeatNews

2026-04-07 01:21:09

概要作成中

1M AIニュースのモニタリングによると、AIプログラミングツールのCursorが技術ブログを公開し、自社開発のMoE（ミクスド・エキスパート・モデル）推論の高速化手法であるWarp Decodeを紹介した。この手法は、NVIDIA Blackwell GPU上での小バッチのtoken生成シナリオを対象としており、従来の「エキスパート中心」の並列戦略を「出力中心」へと反転させる。GPU内の各warp（32の並列処理ユニットで構成される最小のスケジューリング単位）は、出力値を1つ計算するだけに責務を絞り、ルーティングされたすべてのエキスパートを独立して走査し、レジスタ上で加算を完了する。warp間の同期や中間バッファは不要。

従来のMoE推論パイプラインは全8段階で構成され、そのうち5段階はエキスパートのビューへデータを運ぶためのもので、実際の計算は行わない。Warp Decodeは、MoE計算層全体を2つのCUDA kernelに圧縮し、パディング、分散、マージなどの中間ステップを省略した。各tokenあたり、32KB超の中間バッファの読み書きを削減する。

NVIDIA B200 GPU上で、Qwen-3スタイルのモデルで実測したところ、Warp Decodeによりエンドツーエンドのデコードスループットが1.84倍に向上した。さらに、全工程でBF16/FP32の精度計算を行い、中間の量子化による損失を回避したことで、出力精度は従来経路に比べてFP32基準値の1.4倍に近づいた。ハードウェア帯域の利用効率については、バッチサイズが32のときの継続スループットが3.95 TB/sで、B200のピーク帯域（6.8 TB/s）の58%に相当する。この最適化は、Cursorの自社開発プログラミングモデルComposerの研究開発の反復と、バージョンリリースの進行スピードを直接加速させた。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

2 いいね