PyTorch TorchInductor mengintegrasikan CuteDSL sebagai backend otomatis penyempurnaan matriks perkalian

robot
Pembuatan abstrak sedang berlangsung

Berita ME News, 7 April (UTC+8), Tim resmi PyTorch baru-baru ini mengumumkan bahwa mereka telah mengintegrasikan CuteDSL sebagai backend otomatis tuning matriks perkalian ke dalam TorchInductor sebagai backend keempat. Pemilihan backend ini didasarkan pada tiga kriteria: tidak menambah beban pemeliharaan yang berlebihan, tidak memperlambat waktu kompilasi atau pengujian benchmark, dan memberikan kinerja yang lebih baik pada beban kerja target. CuteDSL dikembangkan secara aktif oleh NVIDIA, menyediakan template kernel yang dioptimalkan, waktu kompilasinya sebanding dengan backend yang ada, dan secara signifikan lebih baik daripada jalur CUTLASS C++ yang memerlukan kompilasi lengkap dengan \nvcc. Backend ini dibangun berdasarkan abstraksi yang sama dengan CUTLASS C++, ditulis dalam Python, kompilasi lebih cepat, pemeliharaan lebih sederhana, dan telah terbukti memiliki kinerja yang kuat dalam FP8 GEMM dan penggabungan Epilogue. Tim ini fokus pada pengoptimalan GEMM (perkalian matriks), karena ini merupakan beban komputasi utama dalam model Transformer. CuteDSL menghasilkan kode tingkat rendah melalui template yang dioptimalkan secara manual, menghindari kerumitan menulis kernel dari awal, dan sepenuhnya mengekspos struktur thread dan memori, mendukung fitur khusus arsitektur. (Sumber: InFoQ)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan