文生圖10倍速，視頻實時渲染！清華發佈LCM：相容全部SD大模型、LoRA、外掛程式等

巴比特_

2023-11-24 03:07:12

**來源：**新智元

作者：譚煒達

編輯：LRS 好困

圖片來源：由無界AI 生成Latent Consistency Models（潛一致性模型）是一個以生成速度為主要亮點的圖像生成架構。

和需要多步反覆運算傳統的擴散模型（如Stable Diffusion）不同，LCM僅用1 - 4步即可達到傳統模型30步左右的效果。

由清華大學交叉資訊研究院研究生駱思勉和譚亦欽發明，LCM將文生圖生成速度提升了5-10倍，世界自此邁入實時生成式AI的時代。

LCM-LoRA系列：

專案主頁：

Stable Diffusion殺手：LCM

在LCM出現之前，不同團隊在各種方向探索了五花八門的SD1.5和SDXL替代方案。

這些專案各有特色，但都存在著不相容LoRA和不完全相容Stable Diffusion生態的硬傷。按發佈時間順序，比較重要的專案有：

這時，LCM-LoRA出現了：將SD1.5、SSD1B、SDXL蒸餾為LCM的LoRA，將生成5倍加速生成能力帶到所有SDXL模型上並相容所有現存的LoRA，同時犧牲了小部分生成品質; 專案迅速獲得了Stable Diffusion生態大量外掛程式、發行版本的支援。

LCM同時也發佈了訓練腳本，可以支持訓練自己的LCM大模型（如LCM-SDXL）或LCM-LoRA，做到兼顧生成品質和速度。只要一次訓練，就可以在保持生成品質的前提下提速5倍。

至此，LCM生態體系具備了完整替代SD的雛形。

截止至2023/11/22，已支援LCM的開源專案：

計劃中添加支援的專案：

隨著生態體系的逐漸發展，LCM有潛力作為新一代圖像生成底層完整替代Stable Diffusion。

未來展望

自Stable Diffusion發佈至今，生成成本被緩慢優化，而LCM的出現使得圖像生成成本直接下降了一個數量級。每當革命性的技術出現，都會帶來重塑產業的大量機會。 LCM至少能在圖像生成成本消失、視頻生成、即時生成三大方面給產業格局帶來重大變化。

1. 圖像生成成本消失

To C產品端，免費替代收費。受高昂的GPU算力成本限制，以Midjourney為代表的大量文生圖服務選擇免費增值作為商業模型。 LCM使手機用戶端、個人電腦CPU、瀏覽器（WebAssembly）、更容易彈性擴容的CPU算力都可能在未來滿足圖像生成的算力需求。簡單的收費文生圖服務如Midjourney會被高品質的免費服務替代。

To B服務端，減少的生成算力需求會被增長的訓練算力需求替代。

AI圖片生成服務對算力的需求在峰值和谷底漲落極大，購買伺服器閑置時間通常超過50%。這種特點促進了大量函數計算GPU（serverless GPU）如美國Replicate、中國阿裡雲的蓬勃發展。

硬體虛擬化方面如國內的瑞雲、騰訊雲等也在浪潮中推出了圖像模型訓練相關虛擬桌面產品。隨著生成算力下放到邊緣、用戶端或更容易擴容的CPU算力，AI生圖將普及到各類應用場景中，圖像模型微調的需求會大幅上漲。在圖像領域，專業、易用、垂直的模型訓練服務會成為下一階段雲端GPU算力的主要消費者。

2. 文生視頻

文生視頻目前極高的生成成本制約了技術的發展和普及，消費級顯卡只能以緩慢的速度逐幀渲染。以AnimateDiff WebUI外掛程式為代表的一批專案優先支援了LCM，使得更多人能參與到文生視頻的開源專案中。更低的門檻必然會加速文生視頻的普及和發展。

3分鐘快速渲染：AnimateDiff Vid2Vid + LCM

3. 實時渲染

速度的增加催生了大量新應用，不斷拓展著所有人的想像空間。

RT-LCM與AR

以RealTime LCM為先導，消費級GPU上第一次實現了每秒10幀左右的實時視頻生成視頻，這在AR領域必然產生深遠的影響。

目前高清、低延時捕捉重繪視線內整個場景需要極高算力，所以過去AR應用主要以添加新物體、提取特徵后低清重繪部分物體為主。 LCM使得即時重繪整個場景成為可能，在遊戲、互動式電影、社交等場景中都有無限的想像空間。

未來遊戲場景不需新建，帶上AR眼鏡，身處的街道立刻轉換為霓虹閃爍的賽博朋克未來風格供玩家探索;看未來的互動式恐怖電影時帶上AR眼鏡，家中熟悉的一切可以無縫融入場景，嚇人的東西就藏在臥室門后。虛擬和現實將無縫融合，真實和夢境讓人愈發難以區分。而這一切底層都可能會有LCM的身影。

RT-LCM視頻渲染

互動方式 - 所想即所得（What you imagine is what you get）

由 Krea.ai、ilumine.ai 首先產品化的即時圖像編輯UI再次降低了創作的門檻、擴大了創意的邊界，讓更多人在精細控制的基礎上獲得了最終畫作的實時反饋。

Krea.ai 即時圖像編輯

即時圖像編輯

建模軟體 + LCM探索了3D建模的新方向，讓3D建模師在所見即所得基礎上更進一步，獲得了所想即所得的能力。

LCM實時空間建模渲染

手是人類最沒用的東西，因為手永遠跟不上腦子的速度。所見即所得（What you see is what you get）太慢，所想即所得（What you imagine is what you get）會成為未來的創意工作的主流。

LCM第一次讓展示效果跟上了靈感創意產生的速度。新的交互方式持續湧現，AIGC革命的終點是將創意的成本、技術門檻降低至無限接近於0。不分行業，好的創意將會從稀缺變為過剩。 LCM將我們向未來又推進了一步。

歡迎對LCM有興趣的朋友們加入LCM中文群：

參考資料：

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

1人點讚了這條動態

讚賞
1
留言
轉發
分享

留言

0/400

暫無留言

巴比特_

熱門話題查看更多
#CPI數據來襲
5.5萬熱度
#你最看好哪個GateFunMeme？
1.4萬熱度
#比特幣行情預測
1.5萬熱度
#量子計算概念股普漲
3108 熱度
#曬出我的Alpha積分
20.7萬熱度

熱門 Gate Fun查看更多
1GCATGCAT
市值:$69.2萬持有人數:10608
2芝麻开门芝麻开门
市值:$68.9萬持有人數:139
3GDOGGdog
市值:$56.2萬持有人數:22771
4GMGMEME
市值:$16.8萬持有人數:5111
5MIMAMiMa
市值:$6.2萬持有人數:20389