PyTorch TorchInductor tích hợp CuteDSL như một backend tối ưu tự động cho phép nhân ma trận

robot
Đang tạo bản tóm tắt

Tin tức ME News, ngày 7 tháng 4 (UTC+8), nhóm chính thức của PyTorch gần đây đã thông báo rằng họ đã tích hợp CuteDSL như là backend tối ưu tự động thứ tư cho phép nhân ma trận vào TorchInductor. Việc chọn backend này dựa trên ba tiêu chí: không gây thêm gánh nặng bảo trì quá lớn, không làm chậm thời gian biên dịch hoặc thử nghiệm chuẩn, và cung cấp hiệu suất tốt hơn trên các tải công việc mục tiêu. CuteDSL được NVIDIA tích cực phát triển, cung cấp các mẫu kernel tối ưu, thời gian biên dịch tương đương với các backend hiện có và rõ ràng vượt trội so với đường dẫn CUTLASS C++ yêu cầu biên dịch đầy đủ bằng \nvcc. Backend này dựa trên cùng một trừu tượng với CUTLASS C++, được viết bằng Python, biên dịch nhanh hơn, bảo trì đơn giản hơn, đã chứng minh có hiệu suất mạnh mẽ trong FP8 GEMM và hợp nhất Epilogue. Nhóm tập trung tối ưu hóa GEMM (nhân ma trận) vì đây là phần tính toán chính trong các mô hình Transformer. CuteDSL tạo mã nền tảng bằng cách cung cấp các mẫu tối ưu thủ công, tránh phức tạp của việc viết kernel từ đầu, và hoàn toàn mở ra kiến trúc luồng và cấp độ bộ nhớ, hỗ trợ các chức năng đặc thù của kiến trúc. (Nguồn: InFoQ)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim