TwELL mengemas data jarang dalam satuan tile, mengikuti logika paralel GPU untuk melewati neuron dengan aktivasi mendekati nol secara lokal, tanpa kehilangan akurasi. Dalam pelatihan model dengan 1,5 miliar parameter, regulasi ringan menurunkan neuron non-nol menjadi kurang dari 2%, dengan percepatan inferensi hingga 30%, percepatan pelatihan 24%, dan penghematan memori puncak yang signifikan. Semakin besar modelnya, semakin banyak neuron yang tidur, dan di masa depan model besar akan mendapatkan keuntungan kinerja yang lebih besar.

MarsBitNews

2026-05-10 05:16:49

Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating, Sakana AI bekerja sama dengan Nvidia merilis format data jarang bernama TwELL dan kernel akselerasi pendukungnya secara open source, berhasil membuat GPU melewati perhitungan yang “hasilnya mendekati nol” saat menjalankan model besar. Solusi ini memungkinkan kecepatan inferensi H100 meningkat hingga 30%, kecepatan pelatihan hingga 24%, dan secara signifikan menghemat memori puncak.
Layer feedforward (FFN) dari model besar mengkonsumsi sebagian besar parameter dan daya komputasi. Tetapi sebenarnya, setiap kali menghasilkan teks, lebih dari 80% neuron berada dalam “status tidur” (nilai aktivasi mendekati nol), tidak berkontribusi pada hasil akhir. Jika neuron-neuron ini bisa dilewati, akan menghemat banyak daya komputasi.
Namun, GPU modern secara alami hanya mahir dalam menghitung matriks padat yang rapi, dan jika menggunakan metode tradisional untuk memilih data yang tersebar dan berguna, biaya pencarian dan pembacaan data bolak-balik akan menghabiskan seluruh daya yang dihemat.
Format TwELL dirancang untuk memecahkan “kutukan perangkat keras” ini. Format ini sepenuhnya mengikuti logika paralel GPU: tidak lagi menggabungkan data non-zero secara lintas wilayah seperti metode tradisional, melainkan memotong data menjadi blok kecil (tile) yang paling cocok diproses GPU.
Dengan cara ini, setiap inti komputasi GPU dapat langsung mengemas data yang berguna secara lokal, menghilangkan kebutuhan membaca dan menulis memori global yang memakan waktu, dan menyatu secara sempurna dengan pipeline akselerasi chip modern.
Dalam pengujian model dengan 1,5 miliar parameter, hanya dengan menambahkan sedikit regularisasi saat pelatihan, rasio neuron yang benar-benar perlu dihitung dapat ditekan hingga kurang dari 2%, dan performa tujuh tugas downstream tidak menurun.
Data juga mengungkapkan sebuah pola: semakin besar jumlah parameter model, semakin banyak neuron yang tidur (rasio non-zero model 2 miliar parameter 38% lebih rendah dibandingkan model 500 juta parameter).
Ini berarti, dalam upaya ke depan untuk model besar yang lebih besar, optimisasi ini yang ditujukan untuk perangkat keras dasar akan memberikan manfaat kinerja yang lebih signifikan.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
GateSquareMayTradingShare
1.06M Popularitas
#
BTCBackAbove80K
59.45M Popularitas
#
IsraelStrikesIranBTCPlunges
45.63K Popularitas
#
JapanTokenizesGovernmentBonds
1.91M Popularitas
#
#DailyPolymarketHotspot
871.3K Popularitas

Sematkan

peta situs

Sakana AI bekerja sama dengan Nvidia: Membuat GPU melewati 80% perhitungan tidak efektif dari model besar, percepatan inferensi H100 sebesar 30%

Topik Trending

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Sematkan