مصدر الصورة: نماذج الاتساق الكامن غير المحدودة الذكاء الاصطناعي التي تم إنشاؤها هي بنية توليد الصور مع سرعة التوليد كأهم ما يميز.
على عكس نماذج الانتشار التقليدية التي تتطلب تكرارات متعددة (مثل الانتشار المستقر) ، يمكن أن يحقق المضاعف المشترك الأصغر حوالي 30 خطوة في 1 إلى 4 خطوات فقط.
اخترعها لوه سيميان وتان يتشين ، طلاب الدراسات العليا في معهد علوم المعلومات متعددة التخصصات بجامعة تسينغهوا ، وقد سرع LCM توليد مخططات Wensheng بمقدار 5-10 مرات ، ومنذ ذلك الحين دخل العالم عصر الذكاء الاصطناعي التوليدية في الوقت الفعلي.
LCM-LoRA:
الصفحة الرئيسية للمشروع:
الانتشار المستقر杀手:LCM
قبل ظهور LCM ، استكشفت فرق مختلفة مجموعة متنوعة من بدائل SD1.5 و SDXL في اتجاهات مختلفة.
هذه المشاريع لها خصائصها الخاصة ، ولكن جميعها بها عيوب كونها غير متوافقة مع LoRA وغير متوافقة تماما مع النظام البيئي للانتشار المستقر. بالترتيب الزمني ، العناصر الأكثر أهمية هي:
في هذا الوقت ، ظهر LCM-LoRA: LoRA المقطر إلى LCM مع SD1.5 و SSD1B و SDXL سيجلب 5 أضعاف تسريع التوليد لجميع طرازات SDXL ويكون متوافقا مع جميع LoRAs الحالية ، مع التضحية بجزء صغير من جودة الجيل ؛ تلقى المشروع بسرعة الدعم من عدد كبير من المكونات الإضافية والتوزيعات في النظام البيئي للانتشار المستقر.
تنشر LCM أيضا نصوصا تدريبية ، والتي يمكن أن تدعم تدريب نماذج LCM الكبيرة الخاصة بها (مثل LCM-SDXL) أو LCM-LoRa ، وذلك لتحقيق الجودة والسرعة. من خلال جلسة تدريب واحدة فقط ، يمكنك الإسراع بما يصل إلى 5 مرات مع الحفاظ على جودة جهازك.
في هذه المرحلة ، يحتوي النظام البيئي LCM على نموذج أولي لاستبدال كامل ل SD.
اعتبارا من 2023/11/22 ، تم دعم المشاريع مفتوحة المصدر التالية:
العناصر لإضافة دعم للخطة:
مع التطور التدريجي للنظام البيئي ، فإن LCM لديه القدرة على أن يكون بديلا كاملا للانتشار المستقر كجيل جديد من توليد الصور تحته.
النظرة المستقبلية
منذ إصدار الانتشار المستقر ، تم تحسين تكلفة توليد الصور ببطء ، وأدى ظهور LCM بشكل مباشر إلى تقليل تكلفة توليد الصور بترتيب من حيث الحجم. في كل مرة تظهر فيها تقنية ثورية ، فإنها تجلب معها ثروة من الفرص لإعادة تشكيل الصناعة. يمكن أن يحدث LCM تغييرات كبيرة في المشهد الصناعي في ثلاثة جوانب على الأقل: اختفاء تكاليف توليد الصور ، وتوليد الفيديو ، والتوليد في الوقت الفعلي.
1. تختفي تكاليف إنشاء الصور
على جانب المنتج إلى C ، مجانا بدلا من الرسوم. مقيدة بالتكلفة العالية لقوة حوسبة GPU ، يختار عدد كبير من خدمات الرسم البياني Wensheng التي تمثلها Midjourney freemium كنموذج أعمالها. يمكن LCM عملاء الهواتف المحمولة ووحدات المعالجة المركزية للكمبيوتر الشخصي والمتصفحات (WebAssembly) وقوة حوسبة وحدة المعالجة المركزية التي يسهل توسيع نطاقها بمرونة لتلبية احتياجات طاقة الحوسبة لتوليد الصور في المستقبل. سيتم استبدال الخدمات المدفوعة البسيطة مثل Midjourney بخدمات مجانية عالية الجودة.
على خادم To B ، سيتم استبدال الطلب المنخفض على توليد طاقة الحوسبة بزيادة الطلب على قوة الحوسبة التدريبية.
يتقلب الطلب على قوة الحوسبة لخدمات توليد الصور الذكاء الاصطناعي بشكل كبير في القمم والوديان ، وعادة ما يتجاوز وقت الخمول للخوادم المشتراة 50٪. عززت هذه الميزة التطوير القوي لعدد كبير من وحدات معالجة الرسومات للحوسبة الوظيفية ، مثل Replicate في الولايات المتحدة و Alibaba Cloud في الصين.
فيما يتعلق بالمحاكاة الافتراضية للأجهزة ، مثل Rayvision و Tencent Cloud في الصين ، فقد أطلقوا أيضا منتجات سطح المكتب الافتراضية المتعلقة بتدريب نموذج الصورة في الموجة. نظرا لتفويض طاقة التوليد إلى قوة حوسبة الحافة أو العميل أو وحدة المعالجة المركزية ، والتي يسهل قياسها ، سيتم تعميم الرسومات الذكاء الاصطناعي في سيناريوهات التطبيقات المختلفة ، وسيزداد الطلب على نماذج الصور الدقيقة بشكل كبير. في مجال الرسومات ، ستصبح خدمات التدريب على النماذج الاحترافية وسهلة الاستخدام والعمودية المستهلكين الرئيسيين لقوة حوسبة GPU السحابية في المرحلة التالية.
2. ونشنغ فيديو
في الوقت الحاضر ، تقيد تكلفة التوليد المرتفعة للغاية لفيديو Wensheng تطوير التكنولوجيا وتعميمها ، ولا يمكن عرض بطاقات الرسومات من فئة المستهلك إلا بسرعة بطيئة إطارا تلو الآخر. أعطى عدد من المشاريع التي يمثلها المكون الإضافي AnimateDiff WebUI الأولوية لدعم LCM ، مما مكن المزيد من الأشخاص من المشاركة في مشروع المصدر المفتوح ل Wensheng Video. سيؤدي الحد الأدنى حتما إلى تسريع شعبية وتطوير مقاطع فيديو Wensheng.
3分钟快速渲染:AnimateDiff Vid2Vid + LCM
3. عرض في الوقت الحقيقي
أدت الزيادة في السرعة إلى عدد كبير من التطبيقات الجديدة التي توسع خيال الجميع.
RT-LCM مقابل AR
بقيادة RealTime LCM ، تم تحقيق توليد الفيديو في الوقت الفعلي بحوالي 10 إطارات في الثانية على وحدات معالجة الرسومات من فئة المستهلك لأول مرة ، والتي لا بد أن يكون لها تأثير بعيد المدى في مجال AR.
في الوقت الحاضر ، يتطلب الالتقاط عالي الدقة والكمون المنخفض وإعادة رسم المشهد بأكمله في خط الرؤية قوة حوسبة عالية للغاية ، لذلك في الماضي ، ركزت تطبيقات الواقع المعزز بشكل أساسي على إضافة كائنات جديدة وإعادة رسم بعض الكائنات بدقة منخفضة بعد استخراج الميزات. يتيح LCM إعادة رسم مشاهد كاملة في الوقت الفعلي ، مع مساحة غير محدودة للخيال في الألعاب والأفلام التفاعلية والتفاعلات الاجتماعية والمزيد.
في المستقبل ، لا تحتاج إلى بناء واحدة جديدة ، حتى تتمكن من ارتداء نظارات AR وستتحول الشوارع على الفور إلى أسلوب مستقبلي للسايبربانك مضاء بالنيون ليستكشفه اللاعبون ، وعندما تشاهد فيلم رعب تفاعلي مستقبلي ، يمكنك ارتداء نظارات AR وكل شيء مألوف في منزلك سوف يمتزج بسلاسة مع المشهد ، وسيتم إخفاء الأشياء المخيفة خلف باب غرفة النوم. سوف يندمج الافتراضي والحقيقي بسلاسة ، مما يجعل من الصعب بشكل متزايد التمييز بين الحقيقي والحلم. وكل هذا من المرجح أن يكون المضاعف المشترك الأصغر في الأسفل.
عرض الفيديو RT-LCM
交互方式 - 所想即所得(ما تتخيله هو ما تحصل عليه)
تعمل واجهة مستخدم تحرير الصور في الوقت الفعلي ، والتي تم إنتاجها لأول مرة بواسطة Krea.ai و ilumine.ai ، مرة أخرى على خفض عتبة الإبداع وتوسيع حدود الإبداع ، مما يسمح لمزيد من الأشخاص بالحصول على تعليقات في الوقت الفعلي على اللوحة النهائية على أساس التحكم الدقيق.
Krea.ai تحرير الصور في الوقت الحقيقي
تحرير الصور في الوقت الحقيقي
يستكشف برنامج النمذجة + LCM اتجاها جديدا للنمذجة ثلاثية الأبعاد ، مما يسمح لمصممي النماذج ثلاثية الأبعاد بالمضي قدما على أساس WYSIWYG واكتساب القدرة على التفكير فيما تحصل عليه.
عرض النمذجة المكانية في الوقت الحقيقي LCM
الأيدي هي أكثر الأشياء عديمة الفائدة بالنسبة للبشر لأنها لا تستطيع أبدا مواكبة سرعة الدماغ. ما تراه هو أن ما تحصل عليه بطيء للغاية ، وما تتخيله هو أن ما تحصل عليه سيصبح التيار الرئيسي للعمل الإبداعي في المستقبل.
لأول مرة ، سمح LCM للعروض التقديمية بمواكبة السرعة التي تم بها توليد الأفكار. تستمر طرق جديدة للتفاعل في الظهور ، ونقطة النهاية لثورة AIGC هي تقليل التكلفة والعتبة التقنية للإبداع إلى ما لا نهاية بالقرب من الصفر. بغض النظر عن الصناعة ، ستنتقل الأفكار الجيدة من الندرة إلى الفائض. يأخذنا LCM خطوة أخرى إلى المستقبل.
نرحب بالأصدقاء المهتمين ب LCM للانضمام إلى مجموعة LCM الصينية:
موارد:
شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
أصدرت Tsinghua LCM: متوافق مع جميع طرز SD الكبيرة ، LoRa ، المكونات الإضافية ، إلخ
المصدر: نيو تشى يوان
المؤلف: تان ويدا
** تحرير: LRS نعسان **
على عكس نماذج الانتشار التقليدية التي تتطلب تكرارات متعددة (مثل الانتشار المستقر) ، يمكن أن يحقق المضاعف المشترك الأصغر حوالي 30 خطوة في 1 إلى 4 خطوات فقط.
اخترعها لوه سيميان وتان يتشين ، طلاب الدراسات العليا في معهد علوم المعلومات متعددة التخصصات بجامعة تسينغهوا ، وقد سرع LCM توليد مخططات Wensheng بمقدار 5-10 مرات ، ومنذ ذلك الحين دخل العالم عصر الذكاء الاصطناعي التوليدية في الوقت الفعلي.
الصفحة الرئيسية للمشروع:
الانتشار المستقر杀手:LCM
قبل ظهور LCM ، استكشفت فرق مختلفة مجموعة متنوعة من بدائل SD1.5 و SDXL في اتجاهات مختلفة.
هذه المشاريع لها خصائصها الخاصة ، ولكن جميعها بها عيوب كونها غير متوافقة مع LoRA وغير متوافقة تماما مع النظام البيئي للانتشار المستقر. بالترتيب الزمني ، العناصر الأكثر أهمية هي:
تنشر LCM أيضا نصوصا تدريبية ، والتي يمكن أن تدعم تدريب نماذج LCM الكبيرة الخاصة بها (مثل LCM-SDXL) أو LCM-LoRa ، وذلك لتحقيق الجودة والسرعة. من خلال جلسة تدريب واحدة فقط ، يمكنك الإسراع بما يصل إلى 5 مرات مع الحفاظ على جودة جهازك.
في هذه المرحلة ، يحتوي النظام البيئي LCM على نموذج أولي لاستبدال كامل ل SD.
اعتبارا من 2023/11/22 ، تم دعم المشاريع مفتوحة المصدر التالية:
النظرة المستقبلية
منذ إصدار الانتشار المستقر ، تم تحسين تكلفة توليد الصور ببطء ، وأدى ظهور LCM بشكل مباشر إلى تقليل تكلفة توليد الصور بترتيب من حيث الحجم. في كل مرة تظهر فيها تقنية ثورية ، فإنها تجلب معها ثروة من الفرص لإعادة تشكيل الصناعة. يمكن أن يحدث LCM تغييرات كبيرة في المشهد الصناعي في ثلاثة جوانب على الأقل: اختفاء تكاليف توليد الصور ، وتوليد الفيديو ، والتوليد في الوقت الفعلي.
1. تختفي تكاليف إنشاء الصور
على جانب المنتج إلى C ، مجانا بدلا من الرسوم. مقيدة بالتكلفة العالية لقوة حوسبة GPU ، يختار عدد كبير من خدمات الرسم البياني Wensheng التي تمثلها Midjourney freemium كنموذج أعمالها. يمكن LCM عملاء الهواتف المحمولة ووحدات المعالجة المركزية للكمبيوتر الشخصي والمتصفحات (WebAssembly) وقوة حوسبة وحدة المعالجة المركزية التي يسهل توسيع نطاقها بمرونة لتلبية احتياجات طاقة الحوسبة لتوليد الصور في المستقبل. سيتم استبدال الخدمات المدفوعة البسيطة مثل Midjourney بخدمات مجانية عالية الجودة.
على خادم To B ، سيتم استبدال الطلب المنخفض على توليد طاقة الحوسبة بزيادة الطلب على قوة الحوسبة التدريبية.
يتقلب الطلب على قوة الحوسبة لخدمات توليد الصور الذكاء الاصطناعي بشكل كبير في القمم والوديان ، وعادة ما يتجاوز وقت الخمول للخوادم المشتراة 50٪. عززت هذه الميزة التطوير القوي لعدد كبير من وحدات معالجة الرسومات للحوسبة الوظيفية ، مثل Replicate في الولايات المتحدة و Alibaba Cloud في الصين.
فيما يتعلق بالمحاكاة الافتراضية للأجهزة ، مثل Rayvision و Tencent Cloud في الصين ، فقد أطلقوا أيضا منتجات سطح المكتب الافتراضية المتعلقة بتدريب نموذج الصورة في الموجة. نظرا لتفويض طاقة التوليد إلى قوة حوسبة الحافة أو العميل أو وحدة المعالجة المركزية ، والتي يسهل قياسها ، سيتم تعميم الرسومات الذكاء الاصطناعي في سيناريوهات التطبيقات المختلفة ، وسيزداد الطلب على نماذج الصور الدقيقة بشكل كبير. في مجال الرسومات ، ستصبح خدمات التدريب على النماذج الاحترافية وسهلة الاستخدام والعمودية المستهلكين الرئيسيين لقوة حوسبة GPU السحابية في المرحلة التالية.
2. ونشنغ فيديو
في الوقت الحاضر ، تقيد تكلفة التوليد المرتفعة للغاية لفيديو Wensheng تطوير التكنولوجيا وتعميمها ، ولا يمكن عرض بطاقات الرسومات من فئة المستهلك إلا بسرعة بطيئة إطارا تلو الآخر. أعطى عدد من المشاريع التي يمثلها المكون الإضافي AnimateDiff WebUI الأولوية لدعم LCM ، مما مكن المزيد من الأشخاص من المشاركة في مشروع المصدر المفتوح ل Wensheng Video. سيؤدي الحد الأدنى حتما إلى تسريع شعبية وتطوير مقاطع فيديو Wensheng.
3. عرض في الوقت الحقيقي
أدت الزيادة في السرعة إلى عدد كبير من التطبيقات الجديدة التي توسع خيال الجميع.
RT-LCM مقابل AR
بقيادة RealTime LCM ، تم تحقيق توليد الفيديو في الوقت الفعلي بحوالي 10 إطارات في الثانية على وحدات معالجة الرسومات من فئة المستهلك لأول مرة ، والتي لا بد أن يكون لها تأثير بعيد المدى في مجال AR.
في الوقت الحاضر ، يتطلب الالتقاط عالي الدقة والكمون المنخفض وإعادة رسم المشهد بأكمله في خط الرؤية قوة حوسبة عالية للغاية ، لذلك في الماضي ، ركزت تطبيقات الواقع المعزز بشكل أساسي على إضافة كائنات جديدة وإعادة رسم بعض الكائنات بدقة منخفضة بعد استخراج الميزات. يتيح LCM إعادة رسم مشاهد كاملة في الوقت الفعلي ، مع مساحة غير محدودة للخيال في الألعاب والأفلام التفاعلية والتفاعلات الاجتماعية والمزيد.
في المستقبل ، لا تحتاج إلى بناء واحدة جديدة ، حتى تتمكن من ارتداء نظارات AR وستتحول الشوارع على الفور إلى أسلوب مستقبلي للسايبربانك مضاء بالنيون ليستكشفه اللاعبون ، وعندما تشاهد فيلم رعب تفاعلي مستقبلي ، يمكنك ارتداء نظارات AR وكل شيء مألوف في منزلك سوف يمتزج بسلاسة مع المشهد ، وسيتم إخفاء الأشياء المخيفة خلف باب غرفة النوم. سوف يندمج الافتراضي والحقيقي بسلاسة ، مما يجعل من الصعب بشكل متزايد التمييز بين الحقيقي والحلم. وكل هذا من المرجح أن يكون المضاعف المشترك الأصغر في الأسفل.
交互方式 - 所想即所得(ما تتخيله هو ما تحصل عليه)
تعمل واجهة مستخدم تحرير الصور في الوقت الفعلي ، والتي تم إنتاجها لأول مرة بواسطة Krea.ai و ilumine.ai ، مرة أخرى على خفض عتبة الإبداع وتوسيع حدود الإبداع ، مما يسمح لمزيد من الأشخاص بالحصول على تعليقات في الوقت الفعلي على اللوحة النهائية على أساس التحكم الدقيق.
يستكشف برنامج النمذجة + LCM اتجاها جديدا للنمذجة ثلاثية الأبعاد ، مما يسمح لمصممي النماذج ثلاثية الأبعاد بالمضي قدما على أساس WYSIWYG واكتساب القدرة على التفكير فيما تحصل عليه.
الأيدي هي أكثر الأشياء عديمة الفائدة بالنسبة للبشر لأنها لا تستطيع أبدا مواكبة سرعة الدماغ. ما تراه هو أن ما تحصل عليه بطيء للغاية ، وما تتخيله هو أن ما تحصل عليه سيصبح التيار الرئيسي للعمل الإبداعي في المستقبل.
لأول مرة ، سمح LCM للعروض التقديمية بمواكبة السرعة التي تم بها توليد الأفكار. تستمر طرق جديدة للتفاعل في الظهور ، ونقطة النهاية لثورة AIGC هي تقليل التكلفة والعتبة التقنية للإبداع إلى ما لا نهاية بالقرب من الصفر. بغض النظر عن الصناعة ، ستنتقل الأفكار الجيدة من الندرة إلى الفائض. يأخذنا LCM خطوة أخرى إلى المستقبل.
نرحب بالأصدقاء المهتمين ب LCM للانضمام إلى مجموعة LCM الصينية:
موارد: