Джерело зображення: Unbounded AI Generated Latent Consistency Models — це архітектура генерації зображень зі швидкістю генерації як головною родзинкою.
На відміну від традиційних дифузійних моделей, які вимагають декількох ітерацій (таких як стабільна дифузія), LCM може досягти близько 30 кроків всього за 1-4 кроки.
Винайдений Ло Сімяном і Тан Іцінь, аспірантами Інституту міждисциплінарних інформаційних наук Університету Цінхуа, LCM прискорив генерацію діаграм Веньшен у 5-10 разів, і з тих пір світ вступив в еру генеративного ШІ в реальному часі.
LCM-LoRA:
Домашня сторінка проекту:
Stable Diffusion杀手:LCM
До появи LCM різні команди досліджували різноманітні альтернативи SD1.5 і SDXL у різних напрямках.
Ці проєкти мають свої особливості, але всі вони мають недоліки, які полягають у тому, що вони несумісні з LoRA та не повністю сумісні з екосистемою Stable Diffusion. У хронологічному порядку важливішими пунктами є:
У цей час з'явилася LCM-LoRA: LoRA, дистильована в LCM з SD1.5, SSD1B і SDXL, принесла б 5-кратне прискорення генерації всім моделям SDXL і була сумісна з усіма існуючими LoRA, жертвуючи при цьому невеликою частиною якості генерації; Проект швидко отримав підтримку від великої кількості плагінів і дистрибутивів в екосистемі Stable Diffusion.
LCM також публікує навчальні скрипти, які можуть підтримувати навчання власних великих моделей LCM (таких як LCM-SDXL) або LCM-LoRA, щоб досягти як якості, так і швидкості. Всього за одне тренування ви можете прискоритися до 5 разів, зберігши при цьому якість своєї збірки.
На даний момент екосистема LCM має прототип повної заміни SD.
Станом на 2023/11/22 було підтримано такі проєкти з відкритим вихідним кодом:
Пункти, які допоможуть додати підтримку до плану:
З поступовим розвитком екосистеми, LCM має потенціал стати повною заміною Stable Diffusion як нового покоління генерації зображень.
Перспективи на майбутнє
З моменту виходу Stable Diffusion витрати на генерацію зображень потихеньку оптимізувалися, а поява LCM безпосередньо знизила вартість генерації зображень на порядок. Щоразу, коли з'являється революційна технологія, вона приносить із собою безліч можливостей для зміни галузі. LCM може принести значні зміни в індустріальний ландшафт як мінімум у трьох аспектах: зникнення витрат на генерацію зображень, генерацію відео та генерацію в реальному часі.
1. Зникають витрати на генерацію зображень
На стороні продукту To C безкоштовно, а не безкоштовно. Обмежуючись високою вартістю обчислювальних потужностей GPU, велика кількість графових сервісів Wensheng, представлених Midjourney, вибирають freemium як свою бізнес-модель. LCM дозволяє клієнтам мобільних телефонів, процесорам ПК, браузерам (WebAssembly) і обчислювальним потужностям центрального процесора, які легше гнучко масштабувати для задоволення потреб в обчислювальній потужності для генерації зображень у майбутньому. На зміну простим платним сервісам, таким як Midjourney, прийдуть якісні безкоштовні сервіси.
На сервері To B знижена потреба в генерації обчислювальних потужностей буде замінена підвищеним попитом на навчання обчислювальних потужностей.
Попит на обчислювальні потужності для послуг зі створення зображень зі штучним інтелектом сильно коливається на піках і падіннях, а час простою придбаних серверів зазвичай перевищує 50%. Ця функція сприяла енергійній розробці великої кількості графічних процесорів Function Compute, таких як Replicate у Сполучених Штатах і Alibaba Cloud у Китаї.
Що стосується апаратної віртуалізації, такі як Rayvision і Tencent Cloud в Китаї, вони також запустили продукти для віртуальних робочих столів, пов'язані з навчанням моделей зображень на хвилі. У міру того, як потужність генерації делегується обчислювальній потужності периферії, клієнта або процесора, яку легше масштабувати, графіка штучного інтелекту буде популяризована в різних сценаріях застосування, і попит на моделі зображень з тонким налаштуванням значно зросте. У сфері графіки основними споживачами обчислювальних потужностей хмарних графічних процесорів на наступному етапі стануть професійні, прості у використанні та вертикальні послуги з навчання моделям.
2. Відео Wensheng
В даний час надзвичайно висока вартість генерації відео Wensheng обмежує розвиток і популяризацію технологій, а відеокарти споживчого класу можуть рендерити лише з низькою швидкістю кадр за кадром. Ряд проектів, представлених плагіном AnimateDiff WebUI, надали пріоритет підтримці LCM, що дозволило більшій кількості людей брати участь у проекті з відкритим вихідним кодом Wensheng Video. Нижній поріг неминуче прискорить популярність і розвиток відео Wensheng.
3分钟快速渲染:AnimateDiff Vid2Vid + LCM
3. Рендеринг у реальному часі
Збільшення швидкості призвело до появи безлічі нових додатків, які розширюють уяву всіх.
RT-LCM проти доповненої реальності
На чолі з RealTime LCM генерація відео в реальному часі зі швидкістю близько 10 кадрів на секунду вперше була досягнута на графічних процесорах споживчого класу, що, безсумнівно, матиме далекосяжний вплив у сфері доповненої реальності.
В даний час захоплення високої чіткості з низькою затримкою і перемальовування всієї сцени в зоні прямої видимості вимагає надзвичайно високої обчислювальної потужності, тому в минулому програми доповненої реальності в основному зосереджувалися на додаванні нових об'єктів і перемальовуванні деяких об'єктів у низькій роздільній здатності після вилучення об'єктів. LCM дозволяє перемальовувати цілі сцени в режимі реального часу, з необмеженим простором для уяви в іграх, інтерактивних фільмах, соціальних взаємодіях тощо.
У майбутньому вам не потрібно буде будувати новий, тому ви можете носити окуляри доповненої реальності, і вулиці миттєво перетворяться на футуристичний стиль кіберпанку з неоновим підсвічуванням, який гравці зможуть досліджувати, а коли ви дивитеся футуристичний інтерактивний фільм жахів, ви можете одягнути окуляри доповненої реальності, і все знайоме у вашому домі органічно впишеться в сцену, а страшні речі будуть приховані за дверима спальні. Віртуальне і реальне будуть плавно зливатися воєдино, що ускладнюватиме розрізнення реального і мрії. І все це, швидше за все, матиме LCM внизу.
Рендеринг відео RT-LCM
交互方式 - 所想即所得(Що ви уявляєте, те й отримуєте)
Інтерфейс користувача для редагування зображень у реальному часі, який вперше був розроблений Krea.ai та ilumine.ai, знову знижує поріг створення та розширює межі творчості, дозволяючи більшій кількості людей отримувати відгуки в режимі реального часу про остаточну картину на основі точного контролю.
Krea.ai редагування зображень у реальному часі
Редагування зображень у реальному часі
Modeling Software + LCM досліджує новий напрямок 3D-моделювання, дозволяючи 3D-моделістам піти ще далі на основі WYSIWYG і отримати здатність думати, що ви отримуєте.
Візуалізація просторового моделювання в реальному часі LCM
Руки – найнепотрібніша річ для людини, тому що вони ніколи не встигають за швидкістю роботи мозку. Те, що ви бачите, є занадто повільним, і те, що ви уявляєте, є тим, що ви отримуєте, стане мейнстрімом творчої роботи в майбутньому.
Вперше LCM дозволив презентаціям йти в ногу зі швидкістю генерації ідей. Продовжують з'являтися нові способи взаємодії, і кінцевою точкою революції AIGC є зниження вартості та технічного порогу творчості до нескінченно близького до нуля. Незалежно від галузі, хороші ідеї будуть переходити від дефіциту до надлишку. LCM веде нас на крок вперед у майбутнє.
Ласкаво просимо друзів, які зацікавлені в LCM, приєднатися до китайської групи LCM:
Ресурси:
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Tsinghua випустила LCM: сумісний з усіма великими моделями SD, LoRA, плагінами тощо
Джерело: Новий Чжиюань
Автор: Тан Вейда
Редагувати: LRS сонний
На відміну від традиційних дифузійних моделей, які вимагають декількох ітерацій (таких як стабільна дифузія), LCM може досягти близько 30 кроків всього за 1-4 кроки.
Винайдений Ло Сімяном і Тан Іцінь, аспірантами Інституту міждисциплінарних інформаційних наук Університету Цінхуа, LCM прискорив генерацію діаграм Веньшен у 5-10 разів, і з тих пір світ вступив в еру генеративного ШІ в реальному часі.
Домашня сторінка проекту:
Stable Diffusion杀手:LCM
До появи LCM різні команди досліджували різноманітні альтернативи SD1.5 і SDXL у різних напрямках.
Ці проєкти мають свої особливості, але всі вони мають недоліки, які полягають у тому, що вони несумісні з LoRA та не повністю сумісні з екосистемою Stable Diffusion. У хронологічному порядку важливішими пунктами є:
LCM також публікує навчальні скрипти, які можуть підтримувати навчання власних великих моделей LCM (таких як LCM-SDXL) або LCM-LoRA, щоб досягти як якості, так і швидкості. Всього за одне тренування ви можете прискоритися до 5 разів, зберігши при цьому якість своєї збірки.
На даний момент екосистема LCM має прототип повної заміни SD.
Станом на 2023/11/22 було підтримано такі проєкти з відкритим вихідним кодом:
Перспективи на майбутнє
З моменту виходу Stable Diffusion витрати на генерацію зображень потихеньку оптимізувалися, а поява LCM безпосередньо знизила вартість генерації зображень на порядок. Щоразу, коли з'являється революційна технологія, вона приносить із собою безліч можливостей для зміни галузі. LCM може принести значні зміни в індустріальний ландшафт як мінімум у трьох аспектах: зникнення витрат на генерацію зображень, генерацію відео та генерацію в реальному часі.
1. Зникають витрати на генерацію зображень
На стороні продукту To C безкоштовно, а не безкоштовно. Обмежуючись високою вартістю обчислювальних потужностей GPU, велика кількість графових сервісів Wensheng, представлених Midjourney, вибирають freemium як свою бізнес-модель. LCM дозволяє клієнтам мобільних телефонів, процесорам ПК, браузерам (WebAssembly) і обчислювальним потужностям центрального процесора, які легше гнучко масштабувати для задоволення потреб в обчислювальній потужності для генерації зображень у майбутньому. На зміну простим платним сервісам, таким як Midjourney, прийдуть якісні безкоштовні сервіси.
На сервері To B знижена потреба в генерації обчислювальних потужностей буде замінена підвищеним попитом на навчання обчислювальних потужностей.
Попит на обчислювальні потужності для послуг зі створення зображень зі штучним інтелектом сильно коливається на піках і падіннях, а час простою придбаних серверів зазвичай перевищує 50%. Ця функція сприяла енергійній розробці великої кількості графічних процесорів Function Compute, таких як Replicate у Сполучених Штатах і Alibaba Cloud у Китаї.
Що стосується апаратної віртуалізації, такі як Rayvision і Tencent Cloud в Китаї, вони також запустили продукти для віртуальних робочих столів, пов'язані з навчанням моделей зображень на хвилі. У міру того, як потужність генерації делегується обчислювальній потужності периферії, клієнта або процесора, яку легше масштабувати, графіка штучного інтелекту буде популяризована в різних сценаріях застосування, і попит на моделі зображень з тонким налаштуванням значно зросте. У сфері графіки основними споживачами обчислювальних потужностей хмарних графічних процесорів на наступному етапі стануть професійні, прості у використанні та вертикальні послуги з навчання моделям.
2. Відео Wensheng
В даний час надзвичайно висока вартість генерації відео Wensheng обмежує розвиток і популяризацію технологій, а відеокарти споживчого класу можуть рендерити лише з низькою швидкістю кадр за кадром. Ряд проектів, представлених плагіном AnimateDiff WebUI, надали пріоритет підтримці LCM, що дозволило більшій кількості людей брати участь у проекті з відкритим вихідним кодом Wensheng Video. Нижній поріг неминуче прискорить популярність і розвиток відео Wensheng.
3. Рендеринг у реальному часі
Збільшення швидкості призвело до появи безлічі нових додатків, які розширюють уяву всіх.
RT-LCM проти доповненої реальності
На чолі з RealTime LCM генерація відео в реальному часі зі швидкістю близько 10 кадрів на секунду вперше була досягнута на графічних процесорах споживчого класу, що, безсумнівно, матиме далекосяжний вплив у сфері доповненої реальності.
В даний час захоплення високої чіткості з низькою затримкою і перемальовування всієї сцени в зоні прямої видимості вимагає надзвичайно високої обчислювальної потужності, тому в минулому програми доповненої реальності в основному зосереджувалися на додаванні нових об'єктів і перемальовуванні деяких об'єктів у низькій роздільній здатності після вилучення об'єктів. LCM дозволяє перемальовувати цілі сцени в режимі реального часу, з необмеженим простором для уяви в іграх, інтерактивних фільмах, соціальних взаємодіях тощо.
У майбутньому вам не потрібно буде будувати новий, тому ви можете носити окуляри доповненої реальності, і вулиці миттєво перетворяться на футуристичний стиль кіберпанку з неоновим підсвічуванням, який гравці зможуть досліджувати, а коли ви дивитеся футуристичний інтерактивний фільм жахів, ви можете одягнути окуляри доповненої реальності, і все знайоме у вашому домі органічно впишеться в сцену, а страшні речі будуть приховані за дверима спальні. Віртуальне і реальне будуть плавно зливатися воєдино, що ускладнюватиме розрізнення реального і мрії. І все це, швидше за все, матиме LCM внизу.
交互方式 - 所想即所得(Що ви уявляєте, те й отримуєте)
Інтерфейс користувача для редагування зображень у реальному часі, який вперше був розроблений Krea.ai та ilumine.ai, знову знижує поріг створення та розширює межі творчості, дозволяючи більшій кількості людей отримувати відгуки в режимі реального часу про остаточну картину на основі точного контролю.
Modeling Software + LCM досліджує новий напрямок 3D-моделювання, дозволяючи 3D-моделістам піти ще далі на основі WYSIWYG і отримати здатність думати, що ви отримуєте.
Руки – найнепотрібніша річ для людини, тому що вони ніколи не встигають за швидкістю роботи мозку. Те, що ви бачите, є занадто повільним, і те, що ви уявляєте, є тим, що ви отримуєте, стане мейнстрімом творчої роботи в майбутньому.
Вперше LCM дозволив презентаціям йти в ногу зі швидкістю генерації ідей. Продовжують з'являтися нові способи взаємодії, і кінцевою точкою революції AIGC є зниження вартості та технічного порогу творчості до нескінченно близького до нуля. Незалежно від галузі, хороші ідеї будуть переходити від дефіциту до надлишку. LCM веде нас на крок вперед у майбутнє.
Ласкаво просимо друзів, які зацікавлені в LCM, приєднатися до китайської групи LCM:
Ресурси: