CursorはMoE推論最適化技術Warp Decodeを公開し、Blackwell GPUで1.84倍のスループット向上を実現

AirdropBlackHole · 2026-04-07T06:19:54+00:00

Cursorの技術ブログでは、NVIDIA GPU向けのMoE推論加速手法であるWarp Decodeを紹介しています。これは出力中心の戦略に切り替え、計算段階を圧縮し、デコードのスループットを1.84倍に向上させるとともに、出力の精度を高め、帯域幅の利用効率も最適化しています。

AirdropBlackHole

2026-04-07 06:19:54

概要作成中

1M AI Newsのモニタリングによると、AIプログラミングツールのCursorは、自社開発のMoE（Mixture of Experts：専門家混合）推論加速手法であるWarp Decodeを紹介する技術ブログを公開しました。この手法は、NVIDIAのBlackwell GPU上での小さなバッチのトークン生成シナリオを対象としており、従来の「専門家中心」の並列戦略を「出力中心」のアプローチへと切り替えます。具体的には、GPU内の各ワープ（32の並列処理ユニットで構成される最小のスケジューリング単位）が、単一の出力値の計算を担当し、割り当てられたすべてのルーティング対象エキスパート（専門家）をすべて独立して辿り、クロスワープの同期や中間バッファを介することなくレジスタ上で加算（accumulation）を完了させます。従来のMoE推論パイプラインは8つのステージで構成されており、そのうち5つは、実際の計算を行うのではなく、エキスパートビュー用のデータを移動することのみに割り当てられています。Warp Decodeは、MoEの計算レイヤー全体を2つのCUDAカーネルに圧縮し、パディング、スキャッタリング、マージなどの中間ステップを排除します。その結果、トークンあたりで32KB超の中間バッファの読み書きを削減できます。Qwen-3スタイルのモデルを用い、NVIDIAのB200 GPUでテストしたところ、Warp Decodeはエンドツーエンドのデコードスループットを1.84倍向上させました。さらに、BF16/FP32の精度での計算を完全に行うため、中間の量子化による損失を回避でき、その結果、出力精度は従来の経路と比べてFP32ベンチマークに対し1.4倍近い精度になりました。ハードウェア帯域の利用に関しては、バッチサイズが32の場合、スループットを3.95 TB/sまで維持し、B200のピーク帯域（6.8 TB/s）の約58%に相当しました。この最適化は、Cursorの自社開発プログラミングモデルであるComposerの開発イテレーションとバージョンリリースのペースを直接的に加速します。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。