Tsinghua lançou LCM: compatível com todos os modelos SD grandes, LoRA, plug-ins, etc

Fonte: Novo Zhiyuan

Autor: Tan Weida

Editar: LRS está sonolento

图片来源:由无界AI 生成 Fonte da imagem: Unbounded AI Generated Latent Consistency Models é uma arquitetura de geração de imagens com velocidade de geração como principal destaque.

Ao contrário dos modelos de difusão tradicionais que requerem múltiplas iterações (como a Difusão Estável), o LCM pode alcançar cerca de 30 passos em apenas 1 a 4 passos.

Inventado por Luo Simian e Tan Yiqin, estudantes de pós-graduação do Instituto de Ciências da Informação Interdisciplinares da Universidade de Tsinghua, o LCM acelerou a geração de diagramas de Wensheng em 5-10 vezes, e o mundo entrou desde então na era da IA generativa em tempo real.

LCM-LoRA:

Página inicial do projeto:

Difusão estável杀手:LCM

Antes do advento do LCM, diferentes equipes exploraram uma variedade de alternativas SD1.5 e SDXL em várias direções.

Estes projetos têm características próprias, mas todos eles têm as falhas de serem incompatíveis com o LoRA e não totalmente compatíveis com o ecossistema de Difusão Estável. Em ordem cronológica, os itens mais importantes são:

Neste momento, o LCM-LoRA apareceu: LoRA destilado em LCM com SD1.5, SSD1B e SDXL traria 5 vezes a aceleração de geração para todos os modelos SDXL e seria compatível com todos os LoRAs existentes, sacrificando uma pequena parte da qualidade da geração; O projeto rapidamente recebeu apoio de um grande número de plugins e distribuições no ecossistema Stable Diffusion.

O LCM também publica scripts de treinamento, que podem suportar o treinamento de seus próprios modelos grandes de LCM (como LCM-SDXL) ou LCM-LoRA, de modo a alcançar qualidade e velocidade. Com apenas uma sessão de treinamento, você pode acelerar em até 5 vezes, mantendo a qualidade da sua construção.

Neste ponto, o ecossistema LCM tem o protótipo de um substituto completo para SD.

A partir de 2023/11/22, foram apoiados os seguintes projetos de código aberto:

Itens para adicionar suporte ao plano:

Com o desenvolvimento gradual do ecossistema, o LCM tem o potencial de ser um substituto completo para a Difusão Estável como uma nova geração de geração de imagens por baixo.

Perspetivas futuras

Desde o lançamento do Stable Diffusion, o custo de geração de imagens foi lentamente otimizado, e o surgimento do LCM reduziu diretamente o custo de geração de imagens em uma ordem de magnitude. Toda vez que uma tecnologia revolucionária surge, ela traz consigo uma riqueza de oportunidades para remodelar a indústria. O LCM pode trazer mudanças significativas para o cenário industrial em pelo menos três aspetos: o desaparecimento dos custos de geração de imagem, geração de vídeo e geração em tempo real.

1. Os custos de geração de imagens desaparecem

No lado do produto To C, gratuito em vez de encargos. Limitado pelo alto custo do poder de computação da GPU, um grande número de serviços de gráficos Wensheng representados pela Midjourney escolhem o freemium como seu modelo de negócios. O LCM permite clientes de telefones celulares, CPUs de PC, navegadores (WebAssembly) e poder de computação de CPU que é mais fácil de escalar de forma flexível para atender às necessidades de poder de computação da geração de imagens no futuro. Serviços simples pagos, como o Midjourney, serão substituídos por serviços gratuitos de alta qualidade.

No servidor To B, a demanda reduzida para geração de poder de computação será substituída pelo aumento da demanda por poder de computação de treinamento.

A demanda por poder de computação para serviços de geração de imagens de IA flutua muito em picos e vales, e o tempo ocioso dos servidores comprados geralmente excede 50%. Este recurso promoveu o desenvolvimento vigoroso de um grande número de GPUs de computação funcional, como Replicate nos Estados Unidos e Alibaba Cloud na China.

Em termos de virtualização de hardware, como Rayvision e Tencent Cloud na China, eles também lançaram produtos de desktop virtual relacionados ao treinamento de modelos de imagem na onda. À medida que o poder de geração é delegado ao poder de computação de borda, cliente ou CPU, que é mais fácil de escalar, os gráficos de IA serão popularizados em vários cenários de aplicação, e a demanda por modelos de imagem de ajuste fino aumentará significativamente. No campo dos gráficos, os serviços de treinamento de modelos profissionais, fáceis de usar e verticais se tornarão os principais consumidores do poder de computação da GPU em nuvem na próxima etapa.

2. Vídeo Wensheng

Atualmente, o custo de geração extremamente alto do vídeo Wensheng restringe o desenvolvimento e a popularização da tecnologia, e as placas gráficas de nível de consumidor só podem renderizar a uma velocidade lenta quadro a quadro. Vários projetos representados pelo plug-in AnimateDiff WebUI priorizaram o suporte ao LCM, permitindo que mais pessoas participem do projeto de código aberto do Wensheng Video. O limiar inferior irá inevitavelmente acelerar a popularidade e o desenvolvimento de vídeos Wensheng.

3分钟快速渲染:AnimateDiff Vid2Vid + LCM

3. Renderização em tempo real

O aumento da velocidade levou a uma infinidade de novas aplicações que estão expandindo a imaginação de todos.

RT-LCM vs. RA

Liderada pelo RealTime LCM, a geração de vídeo em tempo real a cerca de 10 quadros por segundo foi alcançada em GPUs de nível de consumidor pela primeira vez, o que deve ter um impacto de longo alcance no campo da RA.

Atualmente, a captura de alta definição e baixa latência e o redesenho de toda a cena na linha de visão exigem um poder de computação extremamente alto, portanto, no passado, as aplicações de RA se concentravam principalmente em adicionar novos objetos e redesenhar alguns objetos em baixa definição após extrair recursos. O LCM torna possível redesenhar cenas inteiras em tempo real, com espaço ilimitado para imaginação em jogos, filmes interativos, interações sociais e muito mais.

No futuro, você não precisa construir um novo, então você pode usar óculos de RA e as ruas se transformarão instantaneamente em um estilo futurista cyberpunk iluminado por neon para os jogadores explorarem, e quando você assistir a um filme de terror interativo futurista, você pode usar óculos de RA e tudo o que é familiar em sua casa se misturará perfeitamente à cena, e as coisas assustadoras ficarão escondidas atrás da porta do quarto. O virtual e o real fundir-se-ão perfeitamente, tornando cada vez mais difícil distinguir entre o real e o sonho. E tudo isso provavelmente terá o LCM na parte inferior.

Renderização de vídeo RT-LCM

交互方式 - 所想即所得(O que você imagina é o que você recebe)

A interface do usuário de edição de imagem em tempo real, que foi produzida pela primeira vez por Krea.ai e ilumine.ai, mais uma vez reduz o limiar da criação e expande os limites da criatividade, permitindo que mais pessoas obtenham feedback em tempo real sobre a pintura final com base no controle fino.

Krea.ai edição de imagens em tempo real

Edição de imagens em tempo real

Modeling Software + LCM explora uma nova direção da modelagem 3D, permitindo que os modeladores 3D vão um passo além na base WYSIWYG e ganhem a capacidade de pensar o que você obtém.

Renderização de modelagem espacial em tempo real do LCM

As mãos são a coisa mais inútil para os seres humanos, porque eles nunca conseguem acompanhar a velocidade do cérebro. O que você vê é que o que você recebe é muito lento, e o que você imagina é que o que você obtém se tornará o mainstream do trabalho criativo no futuro.

Pela primeira vez, o LCM permitiu que as apresentações acompanhassem a velocidade com que as ideias eram geradas. Novas formas de interação continuam a surgir, e o ponto final da revolução AIGC é reduzir o custo e o limiar técnico da criatividade para infinitamente perto de zero. Independentemente da indústria, as boas ideias vão da escassez ao excedente. A LCM leva-nos mais um passo para o futuro.

Bem-vindo amigos que estão interessados em LCM para se juntar ao grupo chinês LCM:

Recursos:

Ver original
O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)