Đội ngũ chính thức của PyTorch thông báo tích hợp CuteDSL vào TorchInductor như là backend tự động tối ưu hóa nhân ma trận thứ tư. Backend này được NVIDIA phát triển, biên dịch nhanh, dễ bảo trì, đặc biệt tối ưu hóa tính toán GEMM FP8, nhằm nâng cao hiệu suất của các mô hình Transformer.

MeNews

2026-04-23 21:23:33

Đang tạo bản tóm tắt

Tin tức ME News, ngày 7 tháng 4 (UTC+8), nhóm chính thức của PyTorch gần đây đã thông báo rằng họ đã tích hợp CuteDSL như là backend tối ưu tự động thứ tư cho phép nhân ma trận vào TorchInductor. Việc chọn backend này dựa trên ba tiêu chí: không gây thêm gánh nặng bảo trì quá lớn, không làm chậm thời gian biên dịch hoặc thử nghiệm chuẩn, và cung cấp hiệu suất tốt hơn trên các tải công việc mục tiêu. CuteDSL được NVIDIA tích cực phát triển, cung cấp các mẫu kernel tối ưu, thời gian biên dịch tương đương với các backend hiện có và rõ ràng vượt trội so với đường dẫn CUTLASS C++ yêu cầu biên dịch đầy đủ bằng \nvcc. Backend này dựa trên cùng một trừu tượng với CUTLASS C++, được viết bằng Python, biên dịch nhanh hơn, bảo trì đơn giản hơn, đã chứng minh có hiệu suất mạnh mẽ trong FP8 GEMM và hợp nhất Epilogue. Nhóm tập trung tối ưu hóa GEMM (nhân ma trận) vì đây là phần tính toán chính trong các mô hình Transformer. CuteDSL tạo mã nền tảng bằng cách cung cấp các mẫu tối ưu thủ công, tránh phức tạp của việc viết kernel từ đầu, và hoàn toàn mở ra kiến trúc luồng và cấp độ bộ nhớ, hỗ trợ các chức năng đặc thù của kiến trúc. (Nguồn: InFoQ)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
WCTCTradingChallengeShare8MUSDT
835.25K Phổ biến
#
CryptoMarketSeesVolatility
201.95K Phổ biến
#
IsraelStrikesIranBTCPlunges
30.82K Phổ biến
#
rsETHAttackUpdate
77.99K Phổ biến
#
US-IranTalksStall
2.88K Phổ biến

Ghim

sơ đồ trang web

PyTorch TorchInductor tích hợp CuteDSL như một backend tối ưu tự động cho phép nhân ma trận

Chủ đề thịnh hành

WCTCTradingChallengeShare8MUSDT

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Ghim