ميتوان مفتوح المصدر LongCat-Video-Avatar1.5 إطار العمل للرقمنة البشرية، تقليل استنتاجه إلى 8 خطوات

robot
إنشاء الملخص قيد التقدم
ME AI رسالة، وفقًا لمراقبة Beating، فريق Meituan LongCat يطلق إطار عمل مفتوح المصدر لتوليد الفيديو والصور الشخصية باستخدام الصوت، LongCat-Video-Avatar 1.5، مع فتح كامل للكود ووزن النموذج. في هذا التحديث، تم استبدال Wav2Vec2 بمشفر الصوت Whisper-Large، بهدف تقديم توافق أكبر مع الهوية في الفيديوهات الطويلة وقدرة أوسع على تعميم الأساليب. تم استبدال إطار العمل بمشفر الصوت Whisper-large-v3 لتحسين تزامن الفم وحركة الشفاه. التحسينات في التمثيل الصوتي مع Whisper-large-v3 زادت بشكل كبير من استقرار توليد حركة الفم متعددة اللغات وعبر اللغات. لتعزيز استقرار التسلسل الزمني، يستخدم الإطار في توليد الفيديو الطويل استنتاجات متداخلة متعددة المقاطع للحفاظ على تماسك هوية الشخصية. أدخلت تقنية تقطير ذات خطوات قليلة تعتمد على DMD2 في طرف الاستنتاج، لتقليل تكرارات إزالة الضوضاء إلى 8 خطوات، مع تسريع الاستنتاج إلى 8 NFE، مع موازنة بين كفاءة الاستنتاج وواقعية الصورة. تم تقييم النموذج بناءً على 508 مجموعة من أزواج المصدر من الصور والصوت. أدخل تقييم الجماهير 770 مقيمًا وجمع 13240 قرارًا، بالإضافة إلى تقييم من 10 خبراء من حيث المعقولية الفيزيائية، والتنسيق، واستقرار التسلسل الزمني، وتوافق الهوية. عرضت النسخة الرسمية مقارنة مباشرة مع HeyGen وKling Avatar 2.0 وOmniHuman-1.5، مع التركيز على تحسين استقرار التسلسل الزمني، وتوافق الهوية، والطبيعية في حركة الفم. بالإضافة إلى الصور الواقعية، يمكن للإطار أن يعمم على أنماط الرسوم المتحركة والحيوانات، ويدعم بشكل أصلي إدخال الصوت الأحادي والمتعدد القنوات. يتم نشر أوزان النموذج بموجب بروتوكول MIT. كما أن صفحة المشروع تتضمن بيانًا أخلاقيًا يوضح أن المحتوى المولد المعروض للاستخدام الأكاديمي فقط، ولا يُسمح بالاستخدام التجاري. يتطلب الاستخدام التجاري الفعلي مراجعة مستقلة للوزن، والكود، والمواد، وحدود المحتوى المولد. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 12
  • 2
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
GateUser-af0ea0c9
· منذ 6 س
لا تزال بحاجة إلى مناقشة تجارية، إنها نفس الأسلوب القديم للشركات الكبرى في فتح المصدر
شاهد النسخة الأصليةرد0
HedgeHedgeBaby
· منذ 9 س
دعم أصلي متعدد القنوات، هذا ضروري لمن يقطع حلقات البودكاست
شاهد النسخة الأصليةرد0
LendingRateAnxiety
· منذ 10 س
هل يوضح المقال بالتفصيل ما قام به عشرة خبراء من تقييمات محددة؟
شاهد النسخة الأصليةرد0
TheWaveOfRasterization
· منذ 10 س
إشادة بترخيص MIT، ودود للأوساط الأكاديمية
شاهد النسخة الأصليةرد0
GlassBottleFeather
· منذ 10 س
هل أصبح تقطير DMD2 الآن معيارًا قياسيًا؟ أبدو أن جميع الشركات تستخدمه.
شاهد النسخة الأصليةرد0
ReboundAtTheStreetCornerAfter
· منذ 11 س
动物风格是什么鬼,猫说话?
رد0
GateUser-dd8dffab
· منذ 11 س
تحسين الاتساق الهوية أمر حاسم، ففي السابق عند تغيير الزاوية يكون من السهل أن لا يبدو الشخص هو نفسه
شاهد النسخة الأصليةرد0
GateUser-c29c3db9
· منذ 11 س
770 مُقيّم و13240 قرار تقييم، هل حجم هذا التقييم جاد حقًا؟
شاهد النسخة الأصليةرد0
BridgeTroll
· منذ 11 س
تعميم الأسلوب الأنمي هو مفاجأة مخفية، وسيكون عالم الإبداع الثانوي ممتعًا جدًا
شاهد النسخة الأصليةرد0
CandleAfterTheRain
· منذ 11 س
الاستنتاج التدريجي هذا التصميم رائع، لم يتوقف الفيديو الطويل عن العمل
شاهد النسخة الأصليةرد0
عرض المزيد
  • مُثبت