Tsinghua merilis LCM: kompatibel dengan semua model besar SD, LoRA, plug-in, dll

2023-11-24 03:07:12

Sumber: Zhiyuan Baru

Penulis: Tan Weida

** Sunting: LRS mengantuk **

Sumber gambar: Unbounded AI Generated Latent Consistency Models adalah arsitektur generasi gambar dengan kecepatan generasi sebagai sorotan utama.

Tidak seperti model difusi tradisional yang memerlukan beberapa iterasi (seperti Difusi Stabil), LCM dapat mencapai sekitar 30 langkah hanya dalam 1 hingga 4 langkah.

Diciptakan oleh Luo Simian dan Tan Yiqin, mahasiswa pascasarjana di Institut Ilmu Informasi Interdisipliner Universitas Tsinghua, LCM telah mempercepat pembuatan diagram Wensheng sebanyak 5-10 kali, dan dunia sejak itu memasuki era AI generatif real-time.

LCM-LoRA:

Beranda Proyek:

Difusi Stabil 杀手:LCM

Sebelum munculnya LCM, tim yang berbeda mengeksplorasi berbagai alternatif SD1.5 dan SDXL ke berbagai arah.

Proyek-proyek ini memiliki karakteristiknya sendiri, tetapi semuanya memiliki kekurangan karena tidak kompatibel dengan LoRA dan tidak sepenuhnya kompatibel dengan ekosistem Difusi Stabil. Dalam urutan kronologis, item yang lebih penting adalah:

Pada saat ini, LCM-LoRA muncul: LoRA disuling menjadi LCM dengan SD1.5, SSD1B, dan SDXL akan membawa akselerasi generasi 5 kali lipat ke semua model SDXL dan kompatibel dengan semua LoRA yang ada, sambil mengorbankan sebagian kecil dari kualitas generasi; Proyek ini dengan cepat menerima dukungan dari sejumlah besar plugin dan distribusi di ekosistem Difusi Stabil.

LCM juga menerbitkan skrip pelatihan, yang dapat mendukung pelatihan model besar LCM sendiri (seperti LCM-SDXL) atau LCM-LoRA, sehingga mencapai kualitas dan kecepatan. Hanya dengan satu sesi latihan, Anda dapat mempercepat hingga 5 kali lipat sambil mempertahankan kualitas bangunan Anda.

Pada titik ini, ekosistem LCM memiliki prototipe pengganti lengkap untuk SD.

Pada 2023/11/22, proyek open source berikut telah didukung:

Item untuk menambahkan dukungan ke paket:

Dengan perkembangan ekosistem secara bertahap, LCM memiliki potensi untuk menjadi pengganti lengkap untuk Difusi Stabil sebagai generasi baru generasi gambar di bawahnya.

Prospek masa depan

Sejak dirilisnya Difusi Stabil, biaya pembuatan gambar perlahan-lahan dioptimalkan, dan kemunculan LCM telah secara langsung mengurangi biaya pembuatan gambar dengan urutan besarnya. Setiap kali teknologi revolusioner muncul, ia membawa banyak peluang untuk membentuk kembali industri. LCM dapat membawa perubahan signifikan pada lanskap industri setidaknya dalam tiga aspek: hilangnya biaya pembuatan gambar, pembuatan video, dan pembuatan waktu nyata.

1. Biaya pembuatan gambar hilang

Di sisi produk To C, gratis, bukan biaya. Dibatasi oleh tingginya biaya daya komputasi GPU, sejumlah besar layanan grafik Wensheng yang diwakili oleh Midjourney memilih freemium sebagai model bisnis mereka. LCM memungkinkan klien ponsel, CPU PC, browser (WebAssembly), dan daya komputasi CPU yang lebih mudah diskalakan secara fleksibel untuk memenuhi kebutuhan daya komputasi generasi gambar di masa depan. Layanan berbayar sederhana seperti Midjourney akan digantikan oleh layanan gratis berkualitas tinggi.

Di server To B, berkurangnya permintaan untuk menghasilkan daya komputasi akan digantikan oleh meningkatnya permintaan untuk melatih daya komputasi.

Permintaan daya komputasi untuk layanan pembuatan gambar AI sangat berfluktuasi di puncak dan lembah, dan waktu idle server yang dibeli biasanya melebihi 50%. Fitur ini telah mendorong pengembangan yang pesat dari sejumlah besar GPU Function Compute, seperti Replicate di Amerika Serikat dan Alibaba Cloud di Tiongkok.

Dalam hal virtualisasi perangkat keras, seperti Rayvision dan Tencent Cloud di China, mereka juga telah meluncurkan produk desktop virtual yang terkait dengan pelatihan model gambar dalam gelombang. Karena daya pembangkitan didelegasikan ke daya komputasi tepi, klien, atau CPU, yang lebih mudah diskalakan, grafik AI akan dipopulerkan dalam berbagai skenario aplikasi, dan permintaan untuk model gambar fine-tuning akan meningkat secara signifikan. Di bidang grafis, jasa pelatihan model profesional, mudah digunakan, dan vertikal akan menjadi konsumen utama daya komputasi GPU cloud pada tahap selanjutnya.

**2. Wensheng Video **

Saat ini, biaya generasi video Wensheng yang sangat tinggi membatasi pengembangan dan mempopulerkan teknologi, dan kartu grafis tingkat konsumen hanya dapat dirender pada kecepatan lambat bingkai demi bingkai. Sejumlah proyek yang diwakili oleh plug-in AnimateDiff WebUI telah memprioritaskan dukungan LCM, memungkinkan lebih banyak orang untuk berpartisipasi dalam proyek open source Wensheng Video. Ambang batas yang lebih rendah pasti akan mempercepat popularitas dan pengembangan video Wensheng.

3分钟快速渲染:AnimateDiff Vid2Vid + LCM

3. Rendering real-time

Peningkatan kecepatan telah menyebabkan sejumlah besar aplikasi baru yang memperluas imajinasi semua orang.

RT-LCM vs. AR

Dipimpin oleh RealTime LCM, pembuatan video real-time sekitar 10 frame per detik telah dicapai pada GPU kelas konsumen untuk pertama kalinya, yang pasti akan memiliki dampak luas di bidang AR.

Saat ini, pengambilan dan penggambaran ulang definisi tinggi, latensi rendah, seluruh adegan dalam garis pandang membutuhkan daya komputasi yang sangat tinggi, jadi di masa lalu, aplikasi AR terutama berfokus pada penambahan objek baru dan menggambar ulang beberapa objek dalam definisi rendah setelah mengekstrak fitur. LCM memungkinkan untuk menggambar ulang seluruh adegan secara real time, dengan ruang tak terbatas untuk imajinasi dalam permainan, film interaktif, interaksi sosial, dan banyak lagi.

Di masa depan, Anda tidak perlu membuat yang baru, sehingga Anda dapat memakai kacamata AR dan jalanan akan langsung berubah menjadi gaya futuristik cyberpunk yang diterangi lampu neon untuk dijelajahi pemain, dan ketika Anda menonton film horor interaktif futuristik, Anda dapat memakai kacamata AR dan semua yang akrab di rumah Anda akan menyatu dengan mulus ke dalam pemandangan, dan hal-hal menakutkan akan disembunyikan di balik pintu kamar tidur. Virtual dan nyata akan bergabung dengan mulus, sehingga semakin sulit untuk membedakan antara yang nyata dan mimpi. Dan semua ini kemungkinan memiliki LCM di bagian bawah.

Rendering video RT-LCM

交互方式 – 所想即所得(Apa yang Anda bayangkan adalah apa yang Anda dapatkan)

UI pengeditan gambar real-time, yang pertama kali diproduksi oleh Krea.ai dan ilumine.ai, sekali lagi menurunkan ambang penciptaan dan memperluas batas kreativitas, memungkinkan lebih banyak orang untuk mendapatkan umpan balik real-time pada lukisan akhir berdasarkan kontrol yang baik.

Krea.ai pengeditan gambar real-time

Pengeditan gambar real-time

Modeling Software + LCM mengeksplorasi arah baru pemodelan 3D, memungkinkan pemodel 3D untuk melangkah lebih jauh berdasarkan WYSIWYG dan mendapatkan kemampuan untuk memikirkan apa yang Anda dapatkan.

Rendering pemodelan spasial real-time LCM

Tangan adalah hal yang paling tidak berguna bagi manusia karena mereka tidak pernah bisa mengikuti kecepatan otak. Apa yang Anda lihat adalah apa yang Anda dapatkan terlalu lambat, dan apa yang Anda bayangkan adalah apa yang Anda dapatkan akan menjadi arus utama karya kreatif di masa depan.

Untuk pertama kalinya, LCM memungkinkan presentasi untuk mengimbangi kecepatan di mana ide-ide yang dihasilkan. Cara interaksi baru terus muncul, dan titik akhir revolusi AIGC adalah mengurangi biaya dan ambang teknis kreativitas hingga mendekati nol. Terlepas dari industri, ide-ide bagus akan berubah dari kelangkaan menjadi surplus. LCM membawa kita selangkah lebih maju ke masa depan.

Selamat datang teman-teman yang tertarik dengan LCM untuk bergabung dengan grup LCM Cina:

Sumber daya:

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

1 Suka