Jaringan residual dipandang sebagai denoising diskret, pencocokan skor menyelesaikan pelatihan tingkat blok, tidak perlu komunikasi antar blok sehingga bisa dilatih, tekanan memori jauh lebih kecil.

Lihat Asli
MeNews
Pelatihan blok terdistribusi DiffusionBlocks dapat menurunkan memori jaringan saraf menjadi 1/B, menguji kinerja berbagai arsitektur
DiffusionBlocks akan membagi jaringan berbasis Transformer menjadi blok-blok yang dapat dilatih secara independen, memandang jaringan residual sebagai langkah denoising diskret, menggunakan pencocokan skor untuk pelatihan tingkat blok tanpa komunikasi antar blok, secara signifikan mengurangi memori pelatihan. Pengujian menunjukkan efektivitas di berbagai arsitektur, selama fase inferensi setiap langkah hanya mengaktifkan satu blok, 12 lapis DiT (B=3) daya komputasinya menjadi sepertiga dari sebelumnya. Metode ini cocok untuk ViT/DiT/MDM/AR Transformer dan lain-lain, tetapi memerlukan kecocokan dimensi input/output, tidak dapat digunakan untuk U-Net.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan