Tsinghua, LCM'yi piyasaya sürdü: tüm SD büyük modellerle uyumlu, LoRA, eklentiler, vb

2023-11-24 03:07:12

Kaynak: Yeni Zhiyuan

Yazar: Tan Weida

Düzenleme: LRS uykulu

Görüntü kaynağı: Sınırsız Yapay Zeka Tarafından Oluşturulan Gizli Tutarlılık Modelleri, ana vurgu olarak üretim hızına sahip bir görüntü oluşturma mimarisidir.

Birden fazla yineleme gerektiren geleneksel difüzyon modellerinin (Kararlı Difüzyon gibi) aksine, LCM sadece 1 ila 4 adımda yaklaşık 30 adım gerçekleştirebilir.

Tsinghua Üniversitesi Disiplinlerarası Bilgi Bilimleri Enstitüsü’nde yüksek lisans öğrencileri olan Luo Simian ve Tan Yiqin tarafından icat edilen LCM, Wensheng diyagramlarının oluşturulmasını 5-10 kat hızlandırdı ve dünya o zamandan beri gerçek zamanlı üretken yapay zeka çağına girdi.

LCM-LoRA:

Proje Ana Sayfası:

Kararlı Difüzyon杀手:LCM

LCM’nin ortaya çıkmasından önce, farklı ekipler çeşitli yönlerde çeşitli SD1.5 ve SDXL alternatiflerini araştırdı.

Bu projelerin kendine has özellikleri var, ancak hepsinin LoRA ile uyumsuz olma ve Kararlı Difüzyon ekosistemiyle tam uyumlu olmama kusurları var. Kronolojik sırayla, daha önemli öğeler şunlardır:

Şu anda, LCM-LoRA ortaya çıktı: SD1.5 ile LCM’ye damıtılan LoRA, SSD1B, ve SDXL, tüm SDXL modellerine 5 kat daha fazla üretim hızlandırması getirecek ve mevcut tüm LoRA’larla uyumlu olacak, üretim kalitesinin küçük bir kısmından ödün verirken; Proje, Stable Diffusion ekosistemindeki çok sayıda eklenti ve dağıtımdan hızla destek aldı.

LCM ayrıca, hem kalite hem de hız elde etmek için kendi LCM büyük modellerinin (LCM-SDXL gibi) veya LCM-LoRA eğitimini destekleyebilecek eğitim komut dosyaları da yayınlar. Tek bir egzersiz seansıyla, sisteminizin kalitesini korurken 5 kata kadar hızlanabilirsiniz.

Bu noktada, LCM ekosistemi, SD’nin tam bir ikamesinin prototipine sahiptir.

2023/11/22 tarihi itibariyle aşağıdaki açık kaynak projeleri desteklenmiştir:

Plana destek eklenecek öğeler:

Ekosistemin kademeli olarak gelişmesiyle birlikte LCM, altında yeni nesil bir görüntü üretimi olarak Stable Diffusion’ın tam bir alternatifi olma potansiyeline sahiptir.

Geleceğe bakış

Stable Diffusion’ın piyasaya sürülmesinden bu yana, görüntü oluşturma maliyeti yavaş yavaş optimize edildi ve LCM’nin ortaya çıkışı, görüntü oluşturma maliyetini doğrudan bir büyüklük sırasına göre azalttı. Devrim niteliğinde bir teknoloji ortaya çıktığında, sektörü yeniden şekillendirmek için zengin fırsatları da beraberinde getiriyor. LCM, endüstriyel manzaraya en az üç açıdan önemli değişiklikler getirebilir: görüntü oluşturma maliyetlerinin ortadan kalkması, video oluşturma ve gerçek zamanlı oluşturma.

1. Görüntü oluşturma maliyetleri ortadan kalkar

To C ürün tarafında, ücretsiz yerine ücretsiz. GPU bilgi işlem gücünün yüksek maliyeti ile kısıtlanan Midjourney tarafından temsil edilen çok sayıda Wensheng grafik hizmeti, iş modeli olarak freemium’u seçiyor. LCM, cep telefonu istemcileri, PC CPU’ları, tarayıcılar (WebAssembly) ve gelecekte görüntü oluşturmanın bilgi işlem gücü gereksinimlerini karşılamak için esnek bir şekilde ölçeklendirilmesi daha kolay olan CPU bilgi işlem gücü sağlar. Midjourney gibi basit ücretli hizmetlerin yerini yüksek kaliteli ücretsiz hizmetler alacak.

To B sunucusunda, bilgi işlem gücü üretmeye yönelik azalan talebin yerini, eğitim bilgi işlem gücüne yönelik artan talep alacaktır.

AI görüntü oluşturma hizmetleri için bilgi işlem gücüne olan talep, zirvelerde ve vadilerde büyük ölçüde dalgalanır ve satın alınan sunucuların boşta kalma süresi genellikle %50’yi aşar. Bu özellik, Amerika Birleşik Devletleri’nde Replicate ve Çin’de Alibaba Cloud gibi çok sayıda İşlev Hesaplama GPU’sunun güçlü bir şekilde geliştirilmesini destekledi.

Çin’deki Rayvision ve Tencent Cloud gibi donanım sanallaştırma açısından, dalgada görüntü modeli eğitimi ile ilgili sanal masaüstü ürünlerini de piyasaya sürdüler. Üretim gücü, ölçeklendirilmesi daha kolay olan uç, istemci veya CPU bilgi işlem gücüne devredildiğinden, AI grafikleri çeşitli uygulama senaryolarında popüler hale gelecek ve ince ayar görüntü modellerine olan talep önemli ölçüde artacaktır. Grafik alanında, profesyonel, kullanımı kolay ve dikey model eğitim hizmetleri, bir sonraki aşamada bulut GPU bilgi işlem gücünün ana tüketicileri haline gelecektir.

2. Wensheng Videosu

Şu anda, Wensheng videosunun son derece yüksek üretim maliyeti, teknolojinin gelişmesini ve popülerleşmesini kısıtlamaktadır ve tüketici sınıfı grafik kartları yalnızca kare kare yavaş bir hızda işleyebilir. AnimateDiff WebUI eklentisi tarafından temsil edilen bir dizi proje, LCM desteğine öncelik vererek Wensheng Video’nun açık kaynak projesine daha fazla kişinin katılmasını sağladı. Alt eşik, kaçınılmaz olarak Wensheng videolarının popülaritesini ve gelişimini hızlandıracaktır.

3分钟快速渲染:AnimateDiff Vid2Vid + LCM

3. Gerçek zamanlı işleme

Hızdaki artış, herkesin hayal gücünü genişleten çok sayıda yeni uygulamaya yol açtı.

RT-LCM ve AR karşılaştırması

RealTime LCM liderliğinde, tüketici sınıfı GPU’larda ilk kez saniyede yaklaşık 10 kare hızında gerçek zamanlı video üretimi elde edildi ve bu da AR alanında geniş kapsamlı bir etkiye sahip olacak.

Şu anda, yüksek çözünürlüklü, düşük gecikmeli yakalama ve görüş hattındaki tüm sahneyi yeniden çizmek son derece yüksek bilgi işlem gücü gerektirir, bu nedenle geçmişte AR uygulamaları esas olarak yeni nesneler eklemeye ve özellikleri çıkardıktan sonra bazı nesneleri düşük çözünürlükte yeniden çizmeye odaklandı. LCM, oyunlarda, etkileşimli filmlerde, sosyal etkileşimlerde ve daha fazlasında sınırsız hayal gücü alanıyla tüm sahneleri gerçek zamanlı olarak yeniden çizmeyi mümkün kılar.

Gelecekte, yeni bir tane inşa etmenize gerek yok, böylece AR gözlüğü takabilirsiniz ve sokaklar anında oyuncuların keşfetmesi için neon ışıklı siberpunk fütüristik bir stile dönüşecek ve fütüristik bir etkileşimli korku filmi izlediğinizde, AR gözlüğü takabilirsiniz ve evinizde tanıdık olan her şey sahneye sorunsuz bir şekilde karışacak ve korkutucu şeyler yatak odası kapısının arkasına gizlenecektir. Sanal ve gerçek sorunsuz bir şekilde birleşecek ve gerçek ile rüya arasında ayrım yapmak giderek zorlaşacak. Ve tüm bunların en altta LCM’ye sahip olması muhtemeldir.

RT-LCM video işleme

交互方式 - 所想即所得(Ne hayal edersen onu alırsın)

İlk olarak Krea.ai ve ilumine.ai tarafından ürünleştirilen gerçek zamanlı görüntü düzenleme kullanıcı arayüzü, bir kez daha yaratma eşiğini düşürüyor ve yaratıcılığın sınırlarını genişleterek, daha fazla insanın hassas kontrol temelinde son resim hakkında gerçek zamanlı geri bildirim almasına olanak tanıyor.

Krea.ai gerçek zamanlı görüntü düzenleme

Gerçek zamanlı görüntü düzenleme

Modelleme Yazılımı + LCM, 3D modellemenin yeni bir yönünü keşfederek 3D modelleyicilerin WYSIWYG temelinde bir adım daha ileri gitmesine ve ne elde ettiğinizi düşünme yeteneği kazanmasına olanak tanır.

LCM gerçek zamanlı uzamsal modelleme oluşturma

Eller insanlar için en işe yaramaz şeydir çünkü beynin hızına asla ayak uyduramazlar. Gördüğünüz şey, elde ettiğiniz şeyin çok yavaş olmasıdır ve elde ettiğiniz şeyin gelecekte yaratıcı çalışmanın ana akımı haline geleceğini hayal edersiniz.

LCM ilk kez sunumların fikirlerin üretilme hızına ayak uydurmasına izin verdi. Yeni etkileşim yolları ortaya çıkmaya devam ediyor ve AIGC devriminin son noktası, yaratıcılığın maliyetini ve teknik eşiğini sıfıra sonsuz derecede indirmektir. Sektörden bağımsız olarak, iyi fikirler kıtlıktan fazlalığa gidecektir. LCM bizi geleceğe bir adım daha ileriye götürüyor.

LCM Çince grubuna katılmak için LCM ile ilgilenen arkadaşlara hoş geldiniz:

Kaynaklar:

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

1 Likes