RAEv2 sumber terbuka: Kecepatan konvergensi meningkat 10 kali lipat, 80 putaran pelatihan melampaui rekor 800 putaran generasi sebelumnya

robot
Pembuatan abstrak sedang berlangsung
Berita dari CoinWorld, proyek open-source RAEv2 diluncurkan oleh tim dari Adobe Research, Australian National University (ANU), dan New York University (NYU) yang menggabungkan kekuatan, meningkatkan kecepatan konvergensi 10 kali lipat, dan melampaui rekor 800 putaran pelatihan sebelumnya dalam 80 putaran. Versi baru ini sebagai pengganti model rekonstruksi gambar berbasis difusi yang tradisional, seperti Variational Autoencoder (VAE), menyelesaikan masalah kualitas rekonstruksi awal yang buruk, ketidakmampuan menggunakan panduan tanpa pengklasifikasi standar (CFG), dan konvergensi yang sangat lambat. Hanya dengan 80 putaran pelatihan di ImageNet, dapat mencapai skor GFID (Global FID) sebesar 1,06. Tim peneliti melakukan tiga optimasi inti dalam desain arsitektur, menggunakan skema representasi berlapis, dengan menjumlahkan langsung output dari K lapisan terakhir encoder, mempertahankan struktur subruang dasar. Arsitektur baru ini juga menjelaskan mekanisme pelengkap antara autoencoder representasi dan penyelarasan representasi (REPA), sehingga menunjukkan performa yang lebih kuat dalam tugas generasi. Pengujian menunjukkan bahwa untuk mencapai indikator GFID kurang dari 2, model generasi pertama membutuhkan 177 putaran, sedangkan arsitektur baru hanya membutuhkan 35 putaran.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 9
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
GateUser-b6d80ba0
· 2jam yang lalu
Penjumlahan pada K lapisan terakhir encoder, terasa seperti skip connection ResNet tetapi digunakan di ruang laten
Lihat AsliBalas0
NeonVortexInTheSmog
· 3jam yang lalu
Rekonstruksi Penyebaran + Kompatibilitas CFG, utang teknologi dilunasi sekaligus
Lihat AsliBalas0
CyberBridgeDeepPerspective
· 3jam yang lalu
35 putaran GFID<2, efisiensi alkemis sangat gembira
Lihat AsliBalas0
RevokingPermissionsOnARainy
· 3jam yang lalu
Akhirnya ada yang serius menyelesaikan masalah kabur dalam rekonstruksi VAE, membuat mata berkaca-kaca
Lihat AsliBalas0
HoldingPositionsIsLikeTending
· 3jam yang lalu
Adobe+ANU+NYU tiga institusi bekerja sama, sumber daya penuh.
Lihat AsliBalas0
CandleAfterTheRain
· 3jam yang lalu
Representasi berlapis mempertahankan struktur dasar, desainnya sangat rinci, bukan sekadar kedalaman tumpukan.
Lihat AsliBalas0
BitByBitBenny
· 3jam yang lalu
GFID 1.06 hanya 80 putaran, generasi sebelumnya 177 putaran langsung dipangkas, kecepatan konvergensi melonjak
Lihat AsliBalas0
GateUser-0f8d377b
· 3jam yang lalu
Tim Saineng dan timnya kali ini menghubungkan rekonstruksi dan generasi, mekanisme saling melengkapi REPA memiliki sesuatu yang menarik
Lihat AsliBalas0
Salt-BakedSentimentChart
· 3jam yang lalu
Model difusi digunakan sebagai VAE, memang ide yang benar-benar liar
Lihat AsliBalas0
Lihat Lebih Banyak
  • Disematkan