清華社がLCMをリリース:すべてのSD大型モデル、LoRA、プラグインなどと互換性があります

ソース: New Zhiyuan

著者: Tan Weida

編集:LRSは眠い

图片来源:由无界AI 生成 画像出典:Unbounded AI Generated Latent Consistency Modelsは、生成速度を主なハイライトとする画像生成アーキテクチャです。

複数の反復を必要とする従来の拡散モデル(安定拡散など)とは異なり、LCMはわずか1〜4ステップで約30ステップを達成できます。

清華大学学際情報科学研究所の大学院生であるLuo Simian氏とTan Yiqin氏が発明したLCMは、文生図の生成を5〜10倍高速化し、それ以来、世界はリアルタイム生成AIの時代に突入しました。

LCM-LoRAです。

プロジェクトホームページ:

安定拡散杀手:LCM

LCMが登場する前は、さまざまなチームがさまざまな方向でSD1.5およびSDXLの代替品を模索していました。

これらのプロジェクトには独自の特徴がありますが、すべてLoRAと互換性がなく、Stable Diffusionエコシステムと完全に互換性がないという欠点があります。 時系列で見ると、より重要な項目は次のとおりです。

SD1.5、SSD1B、SDXLでLCMに蒸留されたLoRAは、すべてのSDXLモデルに5倍の生成加速をもたらし、既存のすべてのLoRAと互換性がありますが、生成品質のごく一部を犠牲にします。 このプロジェクトは、Stable Diffusionエコシステムの多数のプラグインとディストリビューションからすぐにサポートを受けました。

LCMは、品質と速度の両方を実現するために、独自のLCM大規模モデル(LCM-SDXLなど)またはLCM-LoRAのトレーニングをサポートできるトレーニングスクリプトも公開しています。 たった1回のトレーニングセッションで、ビルドの品質を維持しながら、最大5倍のスピードアップが可能です。

この時点で、LCMエコシステムにはSDの完全な代替品のプロトタイプがあります。

2023/11/22現在、以下のオープンソースプロジェクトがサポートされています。

プランにサポートを追加する項目:

エコシステムの漸進的な発展に伴い、LCMは、その下にある新世代の画像生成として、Stable Diffusionの完全な代替品となる可能性を秘めています。

今後の展望

Stable Diffusionのリリース以来、画像生成のコストは徐々に最適化されてきましたが、LCMの出現により、画像生成のコストは直接的に一桁削減されました。 革新的な技術が登場するたびに、業界を再構築する機会が豊富に生まれます。 LCMは、画像生成コストの消滅、ビデオ生成、リアルタイム生成という少なくとも3つの側面で、産業環境に大きな変化をもたらす可能性があります。

1. 画像生成コストがなくなる

To C製品側では、無料ではなく無料です。 GPUコンピューティングパワーの高コストという制約から、Midjourneyに代表される多くのWenshengグラフサービスは、ビジネスモデルとしてフリーミアムを選択しています。 LCMは、携帯電話クライアント、PCCP、ブラウザ(WebAssembly)、およびCPUのコンピューティングパワーを柔軟に拡張して、将来の画像生成のコンピューティングパワーのニーズを満たすことを可能にします。 Midjourney(ミッドジャーニー)のようなシンプルな有料サービスは、高品質な無料サービスに取って代わられるでしょう。

To B サーバーでは、コンピューティング能力の生成に対する需要の減少が、コンピューティング能力のトレーニングに対する需要の増加に置き換えられます。

AI画像生成サービスのコンピューティングパワーの需要は山と谷で大きく変動し、購入したサーバーのアイドル時間は通常50%を超えます。 この機能により、米国の Replicate や中国の Alibaba Cloud など、多数の Function Compute GPU の精力的な開発が促進されました。

ハードウェア仮想化の面では、中国のRayvisionやTencent Cloudなど、画像モデルの学習に関連する仮想デスクトップ製品も発売しています。 スケーリングが容易なエッジ、クライアント、またはCPUの計算能力に生成能力が委譲されるため、さまざまなアプリケーションシナリオでAIグラフィックスが普及し、画像モデルの微調整の需要が大幅に増加します。 グラフィックスの分野では、次の段階では、プロフェッショナルで使いやすい垂直モデルトレーニングサービスがクラウドGPUコンピューティングパワーの主な消費者になります。

2. 文生ビデオ

現在、Wenshengビデオの非常に高い生成コストは、技術の開発と普及を制限しており、消費者グレードのグラフィックカードはフレームごとに低速でしかレンダリングできません。 AnimateDiff WebUI プラグインに代表される多くのプロジェクトでは、LCM のサポートを優先しており、より多くの人が Wensheng Video のオープンソースプロジェクトに参加できるようにしています。 閾値が低いと、必然的に文生ビデオの人気と発展が加速します。

3分钟快速渲染:AnimateDiff Vid2Vid + LCM

3. リアルタイムレンダリング

速度の向上により、すべての人の想像力を広げる新しいアプリケーションが多数生まれました。

RT-LCMとARの比較

RealTime LCMを筆頭に、コンシューマグレードのGPUで初めて毎秒10フレーム前後のリアルタイム映像生成を実現し、AR分野に大きな影響を与えることが期待されます。

現在、高精細・低遅延でシーン全体を撮影し、視線内に再描画するには非常に高い計算能力が求められるため、これまでのARアプリケーションは、特徴を抽出した後、新しいオブジェクトを追加し、一部のオブジェクトを低解像度で再描画することが中心でした。 LCMを使用すると、シーン全体をリアルタイムで再描画でき、ゲーム、インタラクティブムービー、ソーシャルインタラクションなどで想像力の余地が無限に広がります。

将来的には、新しいものを作る必要がないので、ARメガネを着用すると、通りがネオンに照らされたサイバーパンクの未来的なスタイルに即座に変わり、プレイヤーが探索でき、未来的なインタラクティブなホラー映画を見るときは、ARメガネを着用すると、家でおなじみのものすべてがシーンにシームレスに溶け込み、怖いものは寝室のドアの後ろに隠されます。 仮想と現実がシームレスに融合し、現実と夢の区別がますます難しくなります。 そして、これらすべては、LCMが底辺にある可能性があります。

RT-LCMビデオレンダリング

交互方式 - 所想即所得(What you imagine is what you get)

Krea.ai and ilumine.ai が最初に製品化したリアルタイム画像編集UIは、再び創造の敷居を下げ、創造性の境界を広げ、より多くの人々が微調整に基づいて最終的な絵画に対するリアルタイムのフィードバックを得ることを可能にします。

Krea.ai リアルタイム画像編集

リアルタイム画像編集

モデリングソフトウェア+ LCMは、3Dモデリングの新しい方向性を探求し、3DモデラーがWYSIWYGベースでさらに一歩進んで、何が得られるかを考える能力を得ることができます。

LCMリアルタイム空間モデリングレンダリング

手は脳のスピードに追いつくことができないため、人間にとって最も役に立たないものです。 あなたが見るものは、あなたが得るものが遅すぎるということであり、あなたが想像するものは、あなたが得るものが将来の創造的な仕事の主流になるでしょう。

LCMは初めて、アイデアが生まれるスピードにプレゼンテーションが追いつくことを可能にしました。 新しい相互作用の方法が次々と登場し、AIGC革命の終着点は、創造性のコストと技術的閾値を限りなくゼロに近づけることです。 業界に関係なく、優れたアイデアは希少性から余剰になります。 LCMは、私たちを一歩先へ導きます。

LCMに興味のある友人がLCM中国語グループに参加することを歓迎します。

リソース:

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)