Sakana AI bekerja sama dengan Nvidia: Membuat GPU melewati 80% perhitungan tidak efektif dari model besar, percepatan inferensi H100 sebesar 30%

robot
Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating, Sakana AI bekerja sama dengan Nvidia merilis format data jarang bernama TwELL dan kernel akselerasi pendukungnya secara open source, berhasil membuat GPU melewati perhitungan yang “hasilnya mendekati nol” saat menjalankan model besar. Solusi ini memungkinkan kecepatan inferensi H100 meningkat hingga 30%, kecepatan pelatihan hingga 24%, dan secara signifikan menghemat memori puncak.
Layer feedforward (FFN) dari model besar mengkonsumsi sebagian besar parameter dan daya komputasi. Tetapi sebenarnya, setiap kali menghasilkan teks, lebih dari 80% neuron berada dalam “status tidur” (nilai aktivasi mendekati nol), tidak berkontribusi pada hasil akhir. Jika neuron-neuron ini bisa dilewati, akan menghemat banyak daya komputasi.
Namun, GPU modern secara alami hanya mahir dalam menghitung matriks padat yang rapi, dan jika menggunakan metode tradisional untuk memilih data yang tersebar dan berguna, biaya pencarian dan pembacaan data bolak-balik akan menghabiskan seluruh daya yang dihemat.
Format TwELL dirancang untuk memecahkan “kutukan perangkat keras” ini. Format ini sepenuhnya mengikuti logika paralel GPU: tidak lagi menggabungkan data non-zero secara lintas wilayah seperti metode tradisional, melainkan memotong data menjadi blok kecil (tile) yang paling cocok diproses GPU.
Dengan cara ini, setiap inti komputasi GPU dapat langsung mengemas data yang berguna secara lokal, menghilangkan kebutuhan membaca dan menulis memori global yang memakan waktu, dan menyatu secara sempurna dengan pipeline akselerasi chip modern.
Dalam pengujian model dengan 1,5 miliar parameter, hanya dengan menambahkan sedikit regularisasi saat pelatihan, rasio neuron yang benar-benar perlu dihitung dapat ditekan hingga kurang dari 2%, dan performa tujuh tugas downstream tidak menurun.
Data juga mengungkapkan sebuah pola: semakin besar jumlah parameter model, semakin banyak neuron yang tidur (rasio non-zero model 2 miliar parameter 38% lebih rendah dibandingkan model 500 juta parameter).
Ini berarti, dalam upaya ke depan untuk model besar yang lebih besar, optimisasi ini yang ditujukan untuk perangkat keras dasar akan memberikan manfaat kinerja yang lebih signifikan.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan