2026-04-07 01:16:48

🔥Cursor công bố công nghệ tối ưu suy luận MoE Warp Decode, trên GPU Blackwell cho hiệu suất thông lượng tăng 1.84 lần

Công cụ lập trình AI Cursor phát hành bài blog kỹ thuật, giới thiệu phương pháp tăng tốc suy luận MoE do chính họ tự nghiên cứu là Warp Decode. Phương pháp này nhắm vào các tình huống sinh token theo lô nhỏ trên GPU Nvidia Blackwell, đảo ngược chiến lược song song truyền thống lấy chuyên gia làm trung tâm sang chiến lược lấy đầu ra làm trung tâm: trong GPU, mỗi warp chỉ chịu trách nhiệm tính một giá trị đầu ra, độc lập duyệt qua tất cả các chuyên gia được định tuyến và hoàn tất phép cộng dồn trong thanh ghi, không cần đồng bộ giữa các warp hay bộ đệm trung gian. Pipeline suy luận MoE truyền thống có tổng cộng 8 giai đoạn, trong đó 5 giai đoạn chỉ để chuyển dữ liệu. Warp Decode nén toàn bộ lớp tính toán MoE thành 2 CU…

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

2 thích