Sakana AI kali ini mengatasi hambatan memori GPU dari model kedalaman, hanya dengan 1/B memori GPU bisa melatih jaringan besar, eksperimen bahkan mengalahkan end-to-end

Lihat Asli
MeNews
Sakana AI meluncurkan DiffusionBlocks, pelatihan blok terpisah membuat memori GPU turun menjadi sepertiga B
Pada ICLR 2026, Sakana AI dan Universitas Tokyo mengusulkan DiffusionBlocks, yang membagi jaringan menjadi blok dan memetakan pembaruan blok sebagai denoising terbalik dari model difusi, memungkinkan pelatihan tingkat blok secara independen. Saat pelatihan, hanya satu blok yang dimuat, blok lain tidak memakan memori GPU, mengurangi penggunaan memori hingga 1/B dari sebelumnya, melampaui batas memori yang disebabkan oleh kedalaman jaringan. Eksperimen menunjukkan bahwa dalam tugas Transformer visual, pembuatan gambar DiT, dan pembuatan teks, pelatihan berbasis blok dapat menyamai bahkan melampaui pelatihan end-to-end; untuk Looped Transformer juga dapat menggunakan pembaruan maju satu arah, secara signifikan mengurangi perhitungan pelatihan.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan