Cursor Mengungkap Teknologi Optimisasi Inferensi MoE Warp Decode, Mencapai Peningkatan Throughput 1.84x pada GPU Blackwell

robot
Pembuatan abstrak sedang berlangsung
Menurut pemantauan oleh 1M AI News, alat pemrograman AI Cursor telah merilis sebuah blog teknis yang memperkenalkan metode akselerasi inferensi MoE (Mixture of Experts) buatan sendiri mereka, Warp Decode. Metode ini menargetkan skenario generasi token dengan batch kecil pada GPU Blackwell milik NVIDIA, membalik strategi paralel yang berpusat pada pakar menjadi pendekatan yang berpusat pada output: setiap warp (unit penjadwalan terkecil yang terdiri dari 32 unit pemrosesan paralel) di GPU bertanggung jawab untuk menghitung satu nilai output, secara independen melintasi semua pakar yang dirutekan, dan menyelesaikan akumulasi di register tanpa sinkronisasi antar-warp atau buffer perantara. Pipeline inferensi MoE tradisional terdiri dari 8 tahap, 5 di antaranya semata-mata untuk memindahkan data untuk tampilan pakar tanpa melakukan komputasi aktual. Warp Decode mengompresi seluruh lapisan komputasi MoE menjadi 2 kernel CUDA, menghilangkan langkah-langkah perantara seperti padding, scattering, dan merging, sehingga mengurangi pembacaan/penulisan buffer perantara lebih dari 32KB per token. Diuji pada GPU NVIDIA B200 dengan model bergaya Qwen-3, Warp Decode mencapai peningkatan throughput decoding end-to-end sebesar 1,84x, dan karena komputasi dilakukan sepenuhnya pada presisi BF16/FP32, metode ini menghindari kehilangan kuantisasi perantara, menghasilkan akurasi output yang 1,4 kali lebih dekat ke benchmark FP32 dibandingkan jalur tradisional. Dari segi pemanfaatan bandwidth perangkat keras, dengan ukuran batch 32, metode ini mempertahankan throughput 3,95 TB/s, sekitar 58% dari bandwidth puncak B200 (6,8 TB/s). Optimasi ini secara langsung mempercepat iterasi pengembangan dan kecepatan rilis versi dari model pemrograman buatan sendiri Cursor, Composer.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar