Cursor Tiết lộ Công nghệ Tối ưu hóa suy luận MoE Warp Decode, đạt cải thiện thông lượng 1.84x trên GPU Blackwell

robot
Đang tạo bản tóm tắt
Theo báo cáo giám sát của 1M AI News, công cụ lập trình AI Cursor đã phát hành một bài blog kỹ thuật, giới thiệu phương pháp tăng tốc suy luận MoE (Mixture of Experts) do hãng tự phát triển của mình, Warp Decode. Phương pháp này nhắm vào các tình huống tạo token với batch nhỏ trên GPU Blackwell của NVIDIA, lật ngược chiến lược song song truyền thống tập trung vào chuyên gia sang một cách tiếp cận tập trung vào đầu ra: mỗi warp (đơn vị lập lịch nhỏ nhất gồm 32 đơn vị xử lý song song) trên GPU chịu trách nhiệm tính toán một giá trị đầu ra duy nhất, tự mình duyệt qua toàn bộ các expert được định tuyến và hoàn tất quá trình cộng dồn trong các thanh ghi mà không cần đồng bộ giữa các warp và không dùng bộ đệm trung gian. Đường ống suy luận MoE truyền thống gồm 8 giai đoạn, trong đó 5 giai đoạn chỉ để di chuyển dữ liệu cho các view của expert mà không thực hiện tính toán thực sự. Warp Decode nén toàn bộ lớp tính toán MoE thành 2 kernel CUDA, loại bỏ các bước trung gian như padding, scattering và merging, giảm hơn 32KB thao tác đọc/ghi cho bộ đệm trung gian trên mỗi token. Được thử nghiệm trên GPU B200 của NVIDIA với một mô hình theo phong cách Qwen-3, Warp Decode đạt mức cải thiện throughput giải mã end-to-end 1.84x, và do tính toán hoàn toàn ở độ chính xác BF16/FP32, nó tránh được thất thoát do lượng tử hóa trung gian, từ đó cho độ chính xác đầu ra gần với chuẩn FP32 hơn 1.4 lần so với các lộ trình truyền thống. Về hiệu dụng băng thông phần cứng, với batch size là 32, nó duy trì throughput 3.95 TB/s, xấp xỉ 58% băng thông đỉnh của B200 (6.8 TB/s). Tối ưu hóa này trực tiếp tăng tốc chu kỳ phát triển và nhịp độ phát hành phiên bản của mô hình lập trình do Cursor tự phát triển, Composer.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim