PyTorch TorchInductor mengintegrasikan CuteDSL sebagai backend otomatis penyempurnaan perkalian matriks

robot
Pembuatan abstrak sedang berlangsung

Berita ME: pada 7 April (UTC+8), tim resmi PyTorch baru-baru ini mengumumkan bahwa mereka telah mengintegrasikan CuteDSL ke dalam TorchInductor sebagai backend otomatis tuning perkalian matriks keempat. Pemilihan backend ini didasarkan pada tiga kriteria: tidak menambah beban pemeliharaan yang berlebihan, tidak memperlambat waktu kompilasi atau pengujian benchmark, serta memberikan performa yang lebih baik pada beban kerja target. CuteDSL secara aktif dikembangkan oleh NVIDIA, menyediakan templat kernel yang dioptimalkan. Waktu kompílasi-nya sebanding dengan backend yang sudah ada, dan secara signifikan lebih unggul dibanding jalur CUTLASS C++ yang membutuhkan kompilasi lengkap \nvcc. Backend ini dibangun berdasarkan abstraksi yang sama dengan CUTLASS C++ dan ditulis dengan Python; kompilasinya lebih cepat dan pemeliharaannya lebih sederhana, serta telah membuktikan performa kuat pada FP8 GEMM dan integrasi Epilogue. Tim berfokus pada optimasi GEMM (perkalian matriks), karena ini menempati sebagian besar beban komputasi dalam model Transformer. CuteDSL menghasilkan kode tingkat bawah melalui templat yang dioptimalkan secara manual, menghindari kompleksitas penulisan kernel dari nol, dan sepenuhnya mengekspos struktur hierarki thread dan memori, serta mendukung fitur spesifik arsitektur. (Sumber: InFoQ)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan