🔥Cursor công bố công nghệ tối ưu suy luận MoE Warp Decode, trên GPU Blackwell cho hiệu suất thông lượng tăng 1.84 lần


Công cụ lập trình AI Cursor phát hành bài blog kỹ thuật, giới thiệu phương pháp tăng tốc suy luận MoE do chính họ tự nghiên cứu là Warp Decode. Phương pháp này nhắm vào các tình huống sinh token theo lô nhỏ trên GPU Nvidia Blackwell, đảo ngược chiến lược song song truyền thống lấy chuyên gia làm trung tâm sang chiến lược lấy đầu ra làm trung tâm: trong GPU, mỗi warp chỉ chịu trách nhiệm tính một giá trị đầu ra, độc lập duyệt qua tất cả các chuyên gia được định tuyến và hoàn tất phép cộng dồn trong thanh ghi, không cần đồng bộ giữa các warp hay bộ đệm trung gian. Pipeline suy luận MoE truyền thống có tổng cộng 8 giai đoạn, trong đó 5 giai đoạn chỉ để chuyển dữ liệu. Warp Decode nén toàn bộ lớp tính toán MoE thành 2 CU…
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.23KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.23KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.28KNgười nắm giữ:2
    0.00%
  • Vốn hóa:$2.65KNgười nắm giữ:2
    2.96%
  • Vốn hóa:$2.24KNgười nắm giữ:1
    0.00%
  • Ghim