Tsinghua a lancé LCM : compatible avec tous les grands modèles SD, LoRA, plug-ins, etc

Source : Nouveau Zhiyuan

Auteur : Tan Weida

Edit : LRS est somnolent

图片来源:由无界AI 生成 Source de l’image : Unbounded AI Generated Latent Consistency Models est une architecture de génération d’images dont la vitesse de génération est le principal point fort.

Contrairement aux modèles de diffusion traditionnels qui nécessitent plusieurs itérations (comme la diffusion stable), le LCM peut atteindre environ 30 étapes en seulement 1 à 4 étapes.

Inventé par Luo Simian et Tan Yiqin, étudiants diplômés à l’Institut des sciences de l’information interdisciplinaires de l’Université Tsinghua, le LCM a accéléré la génération de diagrammes de Wensheng de 5 à 10 fois, et le monde est depuis entré dans l’ère de l’IA générative en temps réel.

LCM-LoRA :

Page d’accueil du projet :

Stable Diffusion杀手:LCM

Avant l’avènement du LCM, différentes équipes ont exploré une variété d’alternatives SD1.5 et SDXL dans diverses directions.

Ces projets ont leurs propres caractéristiques, mais ils ont tous le défaut d’être incompatibles avec LoRA et de ne pas être totalement compatibles avec l’écosystème Stable Diffusion. Dans l’ordre chronologique, les éléments les plus importants sont :

C’est à cette époque qu’est apparu le LCM-LoRA : le LoRA distillé en LCM avec SD1.5, SSD1B et SDXL apporterait 5 fois plus d’accélération de génération à tous les modèles SDXL et serait compatible avec tous les LoRA existants, tout en sacrifiant une petite partie de la qualité de la génération ; Le projet a rapidement reçu le soutien d’un grand nombre de plugins et de distributions de l’écosystème Stable Diffusion.

LCM publie également des scripts d’entraînement, qui peuvent prendre en charge l’entraînement de ses propres grands modèles LCM (tels que LCM-SDXL) ou LCM-LoRA, afin d’atteindre à la fois la qualité et la vitesse. Avec une seule séance d’entraînement, vous pouvez accélérer jusqu’à 5 fois tout en maintenant la qualité de votre construction.

À ce stade, l’écosystème LCM dispose du prototype d’un remplacement complet de la SD.

Depuis le 22/11/2023, les projets open source suivants sont pris en charge :

Éléments permettant d’ajouter de la prise en charge au plan :

Avec le développement progressif de l’écosystème, le LCM a le potentiel d’être un remplacement complet de la diffusion stable en tant que nouvelle génération de génération d’images sous-jacente.

Perspectives d’avenir

Depuis la sortie de Stable Diffusion, le coût de génération d’images a été lentement optimisé, et l’émergence de LCM a directement réduit le coût de génération d’images d’un ordre de grandeur. Chaque fois qu’une technologie révolutionnaire émerge, elle apporte avec elle une multitude d’opportunités pour remodeler l’industrie. Le LCM peut apporter des changements significatifs au paysage industriel sous au moins trois aspects : la disparition des coûts de génération d’images, la génération de vidéos et la génération en temps réel.

1. Les coûts de génération d’images disparaissent

Du côté du produit To C, gratuit au lieu de frais. Contraints par le coût élevé de la puissance de calcul du GPU, un grand nombre de services de graphes Wensheng représentés par Midjourney choisissent le freemium comme modèle économique. LCM permet aux clients de téléphonie mobile, aux processeurs PC, aux navigateurs (WebAssembly) et à la puissance de calcul du processeur d’évoluer de manière plus flexible pour répondre aux besoins de puissance de calcul de la génération d’images à l’avenir. De simples services payants tels que Midjourney seront remplacés par des services gratuits de haute qualité.

Sur le serveur To B, la demande réduite de puissance de calcul générée sera remplacée par une demande accrue de puissance de calcul d’entraînement.

La demande de puissance de calcul pour les services de génération d’images d’IA fluctue considérablement entre les pics et les creux, et le temps d’inactivité des serveurs achetés dépasse généralement 50 %. Cette fonctionnalité a favorisé le développement vigoureux d’un grand nombre de GPU de calcul fonctionnel, tels que Replicate aux États-Unis et Alibaba Cloud en Chine.

En ce qui concerne la virtualisation matérielle, comme Rayvision et Tencent Cloud en Chine, ils ont également lancé des produits de bureau virtuel liés à l’entraînement des modèles d’image dans la vague. Au fur et à mesure que la puissance de production est déléguée à la puissance de calcul de la périphérie, du client ou du processeur, qui est plus facile à mettre à l’échelle, les graphiques d’IA seront popularisés dans divers scénarios d’application, et la demande de modèles d’image affinés augmentera considérablement. Dans le domaine des graphiques, les services d’entraînement de modèles professionnels, faciles à utiliser et verticaux deviendront les principaux consommateurs de puissance de calcul GPU dans le cloud au cours de la prochaine étape.

2. Vidéo Wensheng

À l’heure actuelle, le coût de génération extrêmement élevé de la vidéo Wensheng limite le développement et la popularisation de la technologie, et les cartes graphiques grand public ne peuvent s’afficher qu’à une vitesse lente image par image. Un certain nombre de projets représentés par le plug-in WebUI AnimateDiff ont donné la priorité à la prise en charge de LCM, ce qui permet à un plus grand nombre de personnes de participer au projet open source de Wensheng Video. Le seuil plus bas accélérera inévitablement la popularité et le développement des vidéos Wensheng.

3分钟快速渲染 :AnimateDiff Vid2Vid + LCM

3. Rendu en temps réel

L’augmentation de la vitesse a conduit à une pléthore de nouvelles applications qui élargissent l’imagination de tous.

RT-LCM et AR

Sous l’impulsion de RealTime LCM, la génération de vidéos en temps réel à environ 10 images par seconde a été réalisée pour la première fois sur des GPU grand public, ce qui ne manquera pas d’avoir un impact considérable dans le domaine de la réalité augmentée.

À l’heure actuelle, la capture haute définition et à faible latence et le redessin de l’ensemble de la scène dans la ligne de visée nécessitent une puissance de calcul extrêmement élevée, de sorte que dans le passé, les applications de réalité augmentée se concentraient principalement sur l’ajout de nouveaux objets et le redessin de certains objets en basse définition après l’extraction des caractéristiques. LCM permet de redessiner des scènes entières en temps réel, avec une place illimitée pour l’imagination dans les jeux, les films interactifs, les interactions sociales, etc.

À l’avenir, vous n’aurez pas besoin d’en construire un nouveau, vous pourrez donc porter des lunettes AR et les rues se transformeront instantanément en un style futuriste cyberpunk éclairé au néon pour que les joueurs puissent l’explorer, et lorsque vous regarderez un film d’horreur interactif futuriste, vous pourrez porter des lunettes AR et tout ce qui est familier dans votre maison se fondra parfaitement dans la scène, et les choses effrayantes seront cachées derrière la porte de la chambre. Le virtuel et le réel fusionneront de manière transparente, ce qui rendra de plus en plus difficile la distinction entre le réel et le rêve. Et tout cela est susceptible d’avoir LCM au fond.

Rendu vidéo RT-LCM

交互方式 - 所想即所得(Ce que vous imaginez est ce que vous obtenez)

L’interface utilisateur d’édition d’images en temps réel, qui a d’abord été produite par Krea.ai et ilumine.ai, abaisse une fois de plus le seuil de création et repousse les limites de la créativité, permettant à davantage de personnes d’obtenir un retour en temps réel sur la peinture finale sur la base d’un contrôle fin.

Krea.ai l’édition d’images en temps réel

Retouche d’images en temps réel

Modeling Software + LCM explore une nouvelle direction de la modélisation 3D, permettant aux modélisateurs 3D d’aller encore plus loin sur la base WYSIWYG et d’acquérir la capacité de penser ce que vous obtenez.

Rendu de modélisation spatiale LCM en temps réel

Les mains sont la chose la plus inutile pour les humains car elles ne peuvent jamais suivre la vitesse du cerveau. Ce que vous voyez, c’est que ce que vous obtenez est trop lent, et ce que vous imaginez, c’est que ce que vous obtenez deviendra le courant dominant du travail créatif à l’avenir.

Pour la première fois, le LCM a permis aux présentations de suivre le rythme de la vitesse à laquelle les idées ont été générées. De nouvelles façons d’interagir continuent d’émerger, et le point final de la révolution de l’AIGC est de réduire le coût et le seuil technique de la créativité à un niveau infiniment proche de zéro. Quel que soit le secteur d’activité, les bonnes idées passeront de la rareté à l’excédent. LCM nous fait faire un pas de plus vers l’avenir.

Bienvenue aux amis qui sont intéressés par LCM pour rejoindre le groupe chinois LCM :

Ressources:

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)