Tsinghua lanzó LCM: compatible con todos los modelos SD grandes, LoRA, plug-ins, etc

Fuente: Nuevo Zhiyuan

Autor: Tan Weida

Editar: LRS tiene sueño

图片来源:由无界AI 生成 Fuente de la imagen: Unbounded AI Generated Latent Consistency Models es una arquitectura de generación de imágenes con la velocidad de generación como principal punto culminante.

A diferencia de los modelos de difusión tradicionales que requieren múltiples iteraciones (como la difusión estable), LCM puede lograr alrededor de 30 pasos en solo 1 a 4 pasos.

Inventado por Luo Simian y Tan Yiqin, estudiantes de posgrado del Instituto de Ciencias de la Información Interdisciplinarias de la Universidad de Tsinghua, LCM ha acelerado la generación de diagramas de Wensheng entre 5 y 10 veces, y desde entonces el mundo ha entrado en la era de la IA generativa en tiempo real.

LCM-LoRA:

Página de inicio del proyecto:

Difusión estable杀手:LCM

Antes de la llegada de LCM, diferentes equipos exploraron una variedad de alternativas SD1.5 y SDXL en varias direcciones.

Estos proyectos tienen sus propias características, pero todos tienen los defectos de ser incompatibles con LoRA y no totalmente compatibles con el ecosistema de Stable Diffusion. En orden cronológico, los elementos más importantes son:

En este momento, apareció LCM-LoRA: LoRA destilado en LCM con SD1.5, SSD1B y SDXL aportaría 5 veces la aceleración de generación a todos los modelos SDXL y sería compatible con todos los LoRA existentes, sacrificando una pequeña parte de la calidad de la generación; El proyecto recibió rápidamente el apoyo de un gran número de plugins y distribuciones en el ecosistema de Stable Diffusion.

LCM también publica scripts de entrenamiento, que pueden apoyar el entrenamiento de sus propios modelos grandes de LCM (como LCM-SDXL) o LCM-LoRA, para lograr calidad y velocidad. Con una sola sesión de entrenamiento, puedes acelerar hasta 5 veces mientras mantienes la calidad de tu construcción.

En este punto, el ecosistema LCM tiene el prototipo de un reemplazo completo para SD.

A partir del 22/11/2023, se han apoyado los siguientes proyectos de código abierto:

Elementos para agregar apoyo al plan:

Con el desarrollo gradual del ecosistema, LCM tiene el potencial de ser un reemplazo completo de Stable Diffusion como una nueva generación de generación de imágenes por debajo.

Perspectivas de futuro

Desde el lanzamiento de Stable Diffusion, el costo de generación de imágenes se ha optimizado lentamente y la aparición de LCM ha reducido directamente el costo de generación de imágenes en un orden de magnitud. Cada vez que surge una tecnología revolucionaria, trae consigo una gran cantidad de oportunidades para remodelar la industria. El LCM puede traer cambios significativos al panorama industrial en al menos tres aspectos: la desaparición de los costos de generación de imágenes, la generación de video y la generación en tiempo real.

1. Los costes de generación de imágenes desaparecen

En el lado del producto To C, de forma gratuita en lugar de gratuita. Limitados por el alto costo de la potencia de cómputo de la GPU, una gran cantidad de servicios de gráficos de Wensheng representados por Midjourney eligen freemium como su modelo de negocio. LCM permite clientes de teléfonos móviles, CPU de PC, navegadores (WebAssembly) y potencia de cálculo de CPU que es más fácil de escalar de forma flexible para satisfacer las necesidades de potencia de cálculo de la generación de imágenes en el futuro. Los servicios de pago simples, como Midjourney, serán reemplazados por servicios gratuitos de alta calidad.

En el servidor To B, la reducción de la demanda de generación de potencia de cálculo será sustituida por el aumento de la demanda de potencia de cálculo de entrenamiento.

La demanda de potencia informática para los servicios de generación de imágenes de IA fluctúa mucho en los picos y valles, y el tiempo de inactividad de los servidores comprados suele superar el 50%. Esta característica ha promovido el desarrollo vigoroso de una gran cantidad de GPU de cómputo de funciones, como Replicate en los Estados Unidos y Alibaba Cloud en China.

En cuanto a la virtualización de hardware, como Rayvision y Tencent Cloud en China, también han lanzado productos de escritorio virtual relacionados con el entrenamiento de modelos de imagen en la ola. A medida que la potencia de generación se delega en el perímetro, el cliente o la potencia informática de la CPU, que es más fácil de escalar, los gráficos de IA se popularizarán en varios escenarios de aplicación y la demanda de modelos de imagen de ajuste fino aumentará significativamente. En el campo de los gráficos, los servicios de entrenamiento de modelos profesionales, fáciles de usar y verticales se convertirán en los principales consumidores de potencia de computación de GPU en la nube en la próxima etapa.

2. Vídeo de Wensheng

En la actualidad, el costo de generación extremadamente alto del video Wensheng restringe el desarrollo y la popularización de la tecnología, y las tarjetas gráficas de consumo solo pueden renderizarse a baja velocidad cuadro por cuadro. Varios proyectos representados por el plug-in AnimateDiff WebUI han priorizado la compatibilidad con LCM, lo que permite que más personas participen en el proyecto de código abierto de Wensheng Video. El umbral más bajo inevitablemente acelerará la popularidad y el desarrollo de los videos de Wensheng.

3分钟快速渲染:AnimateDiff Vid2Vid + LCM

3. Renderizado en tiempo real

El aumento de la velocidad ha dado lugar a una plétora de nuevas aplicaciones que están ampliando la imaginación de todos.

RT-LCM frente a AR

Liderado por RealTime LCM, la generación de vídeo en tiempo real a unos 10 fotogramas por segundo se ha logrado por primera vez en las GPU de consumo, lo que seguramente tendrá un impacto de gran alcance en el campo de la realidad aumentada.

En la actualidad, la captura y el redibujo de toda la escena en alta definición y baja latencia requieren una potencia de cálculo extremadamente alta, por lo que en el pasado, las aplicaciones de RA se centraban principalmente en agregar nuevos objetos y volver a dibujar algunos objetos en baja definición después de extraer características. LCM permite volver a dibujar escenas enteras en tiempo real, con espacio ilimitado para la imaginación en juegos, películas interactivas, interacciones sociales y más.

En el futuro, no es necesario que construyas uno nuevo, por lo que puedes usar gafas de realidad aumentada y las calles se transformarán instantáneamente en un estilo futurista ciberpunk iluminado con luces de neón para que los jugadores exploren, y cuando veas una película de terror interactiva futurista, puedes usar gafas de realidad aumentada y todo lo familiar de tu hogar se mezclará a la perfección con la escena, y las cosas aterradoras se ocultarán detrás de la puerta del dormitorio. Lo virtual y lo real se fusionarán a la perfección, lo que hará que sea cada vez más difícil distinguir entre lo real y lo onírico. Y es probable que todo esto tenga a LCM en la parte inferior.

Renderizado de vídeo RT-LCM

交互方式 - 所想即所得(Lo que imaginas es lo que obtienes)

La interfaz de usuario de edición de imágenes en tiempo real, que fue producida por primera vez por Krea.ai y ilumine.ai, una vez más reduce el umbral de la creación y amplía los límites de la creatividad, lo que permite a más personas obtener información en tiempo real sobre la pintura final sobre la base de un control preciso.

Krea.ai edición de imágenes en tiempo real

Edición de imágenes en tiempo real

Modeling Software + LCM explora una nueva dirección del modelado 3D, lo que permite a los modeladores 3D ir un paso más allá sobre la base WYSIWYG y obtener la capacidad de pensar lo que obtiene.

Renderizado de modelado espacial en tiempo real de LCM

Las manos son lo más inútil para los humanos porque nunca pueden seguir el ritmo de la velocidad del cerebro. Lo que ves es que lo que obtienes es demasiado lento, y lo que imaginas es que lo que obtienes se convertirá en la corriente principal del trabajo creativo en el futuro.

Por primera vez, LCM permitió que las presentaciones siguieran el ritmo de la velocidad a la que se generaban las ideas. Siguen surgiendo nuevas formas de interacción, y el objetivo final de la revolución AIGC es reducir el coste y el umbral técnico de la creatividad a un nivel infinitamente cercano a cero. Independientemente de la industria, las buenas ideas pasarán de la escasez al superávit. LCM nos lleva un paso más allá en el futuro.

Bienvenidos amigos que estén interesados en LCM a unirse al grupo chino de LCM:

Recursos:

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)