Источник изображения: Unbounded AI Generated Latent Consistency Models — это архитектура генерации изображений, основной изюминкой которой является скорость генерации.
В отличие от традиционных моделей диффузии, которые требуют нескольких итераций (например, стабильная диффузия), НОК может достичь около 30 шагов всего за 1-4 шага.
Изобретенный Ло Симянем и Тань Ицинь, аспирантами Института междисциплинарных информационных наук Университета Цинхуа, LCM ускорил генерацию диаграмм Вэньшэна в 5-10 раз, и с тех пор мир вступил в эру генеративного ИИ в реальном времени.
LCM-LoRA:
Домашняя страница проекта:
Стабильная диффузия杀手:LCM
До появления LCM различные команды изучали различные альтернативы SD1.5 и SDXL в различных направлениях.
Эти проекты имеют свои особенности, но все они имеют недостатки несовместимости с LoRA и не полностью совместимы с экосистемой Stable Diffusion. В хронологическом порядке наиболее важными пунктами являются:
В это время появилась LCM-LoRA: LoRA, дистиллированная в LCM с SD1.5, SSD1B и SDXL, принесла бы 5-кратное ускорение генерации всем моделям SDXL и была бы совместима со всеми существующими LoRA, пожертвовав при этом небольшой частью качества генерации; Проект быстро получил поддержку от большого количества плагинов и дистрибутивов в экосистеме Stable Diffusion.
LCM также публикует обучающие сценарии, которые могут поддерживать обучение собственных больших моделей LCM (таких как LCM-SDXL) или LCM-LoRA, чтобы достичь как качества, так и скорости. Всего за одну тренировку вы можете ускориться до 5 раз, сохранив при этом качество сборки.
На данный момент экосистема LCM имеет прототип полноценной замены SD.
По состоянию на 22.11.2023 поддерживаются следующие проекты с открытым исходным кодом:
Элементы для добавления поддержки в план:
С постепенным развитием экосистемы LCM может стать полной заменой Stable Diffusion в качестве нового поколения генерации изображений.
Перспективы на будущее
С момента выпуска Stable Diffusion стоимость генерации изображений постепенно оптимизировалась, а появление LCM напрямую снизило стоимость генерации изображений на порядок. Каждый раз, когда появляется революционная технология, она приносит с собой множество возможностей для изменения отрасли. LCM может внести существенные изменения в промышленный ландшафт, по крайней мере, в трех аспектах: исчезновение затрат на генерацию изображений, генерацию видео и генерацию в реальном времени.
1. Исчезают затраты на создание изображений
Со стороны продукта To C, бесплатно, а не бесплатно. Из-за высокой стоимости вычислительной мощности GPU большое количество графовых сервисов Wensheng, представленных Midjourney, выбирают freemium в качестве своей бизнес-модели. LCM позволяет клиентам мобильных телефонов, процессорам ПК, браузерам (WebAssembly) и вычислительным мощностям ЦП легко и гибко масштабироваться для удовлетворения потребностей в вычислительной мощности при создании изображений в будущем. На смену простым платным сервисам, таким как Midjourney, придут качественные бесплатные сервисы.
На сервере To B снижение спроса на генерирующие вычислительные мощности будет заменено повышенным спросом на вычислительные мощности для обучения.
Спрос на вычислительные мощности для сервисов генерации изображений ИИ сильно колеблется на пиках и спадах, а время простоя закупаемых серверов обычно превышает 50%. Эта функция способствовала активному развитию большого количества графических процессоров Function Compute, таких как Replicate в США и Alibaba Cloud в Китае.
Что касается аппаратной виртуализации, таких как Rayvision и Tencent Cloud в Китае, они также запустили продукты для виртуальных рабочих столов, связанные с обучением моделей изображений в волне. По мере делегирования генерирующих мощностей периферийным, клиентским или процессорным вычислительным мощностям, которые легче масштабировать, графика ИИ будет популяризироваться в различных сценариях приложений, а спрос на тонкую настройку моделей изображений значительно возрастет. В области графики основными потребителями вычислительных мощностей облачных GPU на следующем этапе станут профессиональные, простые в использовании сервисы обучения вертикальным моделям.
2. Вэньшэн Видео
В настоящее время чрезвычайно высокая стоимость генерации видео Wensheng ограничивает развитие и популяризацию технологии, а видеокарты потребительского класса могут рендерить только с низкой скоростью кадр за кадром. В ряде проектов, представленных плагином AnimateDiff WebUI, приоритет отдается поддержке LCM, что позволяет большему количеству людей участвовать в проекте с открытым исходным кодом Wensheng Video. Нижний порог неизбежно ускорит популярность и развитие видео Wensheng.
3分钟快速渲染:AnimateDiff Vid2Vid + LCM
3. Рендеринг в реальном времени
Увеличение скорости привело к появлению множества новых приложений, которые расширяют воображение каждого.
RT-LCM и дополненная реальность
Благодаря технологии RealTime LCM генерация видео в реальном времени с частотой около 10 кадров в секунду впервые была достигнута на графических процессорах потребительского класса, что окажет далеко идущее влияние на область дополненной реальности.
В настоящее время захват и перерисовка всей сцены в прямой видимости с высокой четкостью и низкой задержкой требует чрезвычайно высокой вычислительной мощности, поэтому в прошлом приложения дополненной реальности в основном были сосредоточены на добавлении новых объектов и перерисовке некоторых объектов в низком разрешении после извлечения признаков. LCM позволяет перерисовывать целые сцены в режиме реального времени с неограниченным пространством для воображения в играх, интерактивных фильмах, социальных взаимодействиях и многом другом.
В будущем вам не нужно будет строить новый, поэтому вы можете носить очки дополненной реальности, а улицы мгновенно превратятся в неоновый футуристический стиль киберпанка для игроков, а когда вы смотрите футуристический интерактивный фильм ужасов, вы можете надеть очки дополненной реальности, и все знакомое в вашем доме будет органично сливаться со сценой, а страшные вещи будут спрятаны за дверью спальни. Виртуальное и реальное будут плавно сливаться, что сделает все труднее отличить реальное от сна. И все это, скорее всего, будет иметь НОК внизу.
Рендеринг видео RT-LCM
交互方式 - 所想即所得(Что воображаешь, то и получаешь)
Пользовательский интерфейс редактирования изображений в реальном времени, который впервые был создан Krea.ai и ilumine.ai, в очередной раз снижает порог творчества и расширяет границы творчества, позволяя большему количеству людей получать обратную связь в режиме реального времени по поводу окончательной картины на основе точного контроля.
Krea.ai редактирование изображений в режиме реального времени
Редактирование изображений в режиме реального времени
Программное обеспечение для моделирования + LCM исследует новое направление 3D-моделирования, позволяя специалистам по 3D-моделированию сделать еще один шаг вперед на основе WYSIWYG и получить возможность думать о том, что вы получаете.
Рендеринг пространственного моделирования LCM в реальном времени
Руки – самая бесполезная вещь для человека, потому что они никогда не поспевают за скоростью мозга. То, что вы видите, это то, что вы получаете, слишком медленно, и то, что вы представляете, станет мейнстримом творческой работы в будущем.
Впервые LCM позволил презентациям идти в ногу со скоростью, с которой генерировались идеи. Продолжают появляться новые способы взаимодействия, и конечная точка революции AIGC заключается в снижении стоимости и технического порога творчества до бесконечно близкого к нулю. Независимо от отрасли, хорошие идеи перейдут от дефицита к избытку. LCM делает еще один шаг вперед в будущее.
Приглашаем друзей, заинтересованных в LCM, присоединиться к китайской группе LCM:
Ресурсы:
Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
Tsinghua выпустил LCM: совместим со всеми большими моделями SD, LoRA, плагинами и т.д.
Источник: New Zhiyuan
Автор: Тан Вайда
Редактировать: LRS хочет спать
В отличие от традиционных моделей диффузии, которые требуют нескольких итераций (например, стабильная диффузия), НОК может достичь около 30 шагов всего за 1-4 шага.
Изобретенный Ло Симянем и Тань Ицинь, аспирантами Института междисциплинарных информационных наук Университета Цинхуа, LCM ускорил генерацию диаграмм Вэньшэна в 5-10 раз, и с тех пор мир вступил в эру генеративного ИИ в реальном времени.
Домашняя страница проекта:
Стабильная диффузия杀手:LCM
До появления LCM различные команды изучали различные альтернативы SD1.5 и SDXL в различных направлениях.
Эти проекты имеют свои особенности, но все они имеют недостатки несовместимости с LoRA и не полностью совместимы с экосистемой Stable Diffusion. В хронологическом порядке наиболее важными пунктами являются:
LCM также публикует обучающие сценарии, которые могут поддерживать обучение собственных больших моделей LCM (таких как LCM-SDXL) или LCM-LoRA, чтобы достичь как качества, так и скорости. Всего за одну тренировку вы можете ускориться до 5 раз, сохранив при этом качество сборки.
На данный момент экосистема LCM имеет прототип полноценной замены SD.
По состоянию на 22.11.2023 поддерживаются следующие проекты с открытым исходным кодом:
Перспективы на будущее
С момента выпуска Stable Diffusion стоимость генерации изображений постепенно оптимизировалась, а появление LCM напрямую снизило стоимость генерации изображений на порядок. Каждый раз, когда появляется революционная технология, она приносит с собой множество возможностей для изменения отрасли. LCM может внести существенные изменения в промышленный ландшафт, по крайней мере, в трех аспектах: исчезновение затрат на генерацию изображений, генерацию видео и генерацию в реальном времени.
1. Исчезают затраты на создание изображений
Со стороны продукта To C, бесплатно, а не бесплатно. Из-за высокой стоимости вычислительной мощности GPU большое количество графовых сервисов Wensheng, представленных Midjourney, выбирают freemium в качестве своей бизнес-модели. LCM позволяет клиентам мобильных телефонов, процессорам ПК, браузерам (WebAssembly) и вычислительным мощностям ЦП легко и гибко масштабироваться для удовлетворения потребностей в вычислительной мощности при создании изображений в будущем. На смену простым платным сервисам, таким как Midjourney, придут качественные бесплатные сервисы.
На сервере To B снижение спроса на генерирующие вычислительные мощности будет заменено повышенным спросом на вычислительные мощности для обучения.
Спрос на вычислительные мощности для сервисов генерации изображений ИИ сильно колеблется на пиках и спадах, а время простоя закупаемых серверов обычно превышает 50%. Эта функция способствовала активному развитию большого количества графических процессоров Function Compute, таких как Replicate в США и Alibaba Cloud в Китае.
Что касается аппаратной виртуализации, таких как Rayvision и Tencent Cloud в Китае, они также запустили продукты для виртуальных рабочих столов, связанные с обучением моделей изображений в волне. По мере делегирования генерирующих мощностей периферийным, клиентским или процессорным вычислительным мощностям, которые легче масштабировать, графика ИИ будет популяризироваться в различных сценариях приложений, а спрос на тонкую настройку моделей изображений значительно возрастет. В области графики основными потребителями вычислительных мощностей облачных GPU на следующем этапе станут профессиональные, простые в использовании сервисы обучения вертикальным моделям.
2. Вэньшэн Видео
В настоящее время чрезвычайно высокая стоимость генерации видео Wensheng ограничивает развитие и популяризацию технологии, а видеокарты потребительского класса могут рендерить только с низкой скоростью кадр за кадром. В ряде проектов, представленных плагином AnimateDiff WebUI, приоритет отдается поддержке LCM, что позволяет большему количеству людей участвовать в проекте с открытым исходным кодом Wensheng Video. Нижний порог неизбежно ускорит популярность и развитие видео Wensheng.
3. Рендеринг в реальном времени
Увеличение скорости привело к появлению множества новых приложений, которые расширяют воображение каждого.
RT-LCM и дополненная реальность
Благодаря технологии RealTime LCM генерация видео в реальном времени с частотой около 10 кадров в секунду впервые была достигнута на графических процессорах потребительского класса, что окажет далеко идущее влияние на область дополненной реальности.
В настоящее время захват и перерисовка всей сцены в прямой видимости с высокой четкостью и низкой задержкой требует чрезвычайно высокой вычислительной мощности, поэтому в прошлом приложения дополненной реальности в основном были сосредоточены на добавлении новых объектов и перерисовке некоторых объектов в низком разрешении после извлечения признаков. LCM позволяет перерисовывать целые сцены в режиме реального времени с неограниченным пространством для воображения в играх, интерактивных фильмах, социальных взаимодействиях и многом другом.
В будущем вам не нужно будет строить новый, поэтому вы можете носить очки дополненной реальности, а улицы мгновенно превратятся в неоновый футуристический стиль киберпанка для игроков, а когда вы смотрите футуристический интерактивный фильм ужасов, вы можете надеть очки дополненной реальности, и все знакомое в вашем доме будет органично сливаться со сценой, а страшные вещи будут спрятаны за дверью спальни. Виртуальное и реальное будут плавно сливаться, что сделает все труднее отличить реальное от сна. И все это, скорее всего, будет иметь НОК внизу.
交互方式 - 所想即所得(Что воображаешь, то и получаешь)
Пользовательский интерфейс редактирования изображений в реальном времени, который впервые был создан Krea.ai и ilumine.ai, в очередной раз снижает порог творчества и расширяет границы творчества, позволяя большему количеству людей получать обратную связь в режиме реального времени по поводу окончательной картины на основе точного контроля.
Программное обеспечение для моделирования + LCM исследует новое направление 3D-моделирования, позволяя специалистам по 3D-моделированию сделать еще один шаг вперед на основе WYSIWYG и получить возможность думать о том, что вы получаете.
Руки – самая бесполезная вещь для человека, потому что они никогда не поспевают за скоростью мозга. То, что вы видите, это то, что вы получаете, слишком медленно, и то, что вы представляете, станет мейнстримом творческой работы в будущем.
Впервые LCM позволил презентациям идти в ногу со скоростью, с которой генерировались идеи. Продолжают появляться новые способы взаимодействия, и конечная точка революции AIGC заключается в снижении стоимости и технического порога творчества до бесконечно близкого к нулю. Независимо от отрасли, хорошие идеи перейдут от дефицита к избытку. LCM делает еще один шаг вперед в будущее.
Приглашаем друзей, заинтересованных в LCM, присоединиться к китайской группе LCM:
Ресурсы: