ميتوان تفتح مصدر LongCat-Video-Avatar 1.5 إطار العمل للرقم البشري، وتقليل استنتاجه إلى 8 خطوات

robot
إنشاء الملخص قيد التقدم
أخبار شبكة بي جيه، فريق 长猫 من Meituan قام بفتح مصدر إطار عمل توليد الشخص الرقمي LongCat-Video-Avatar 1.5، وأعاد تصميم خوارزميات استخراج الصوت وتوليد الفيديو، مع التركيز على الاستقرار الزمني والمكاني على مستوى الصناعة وسرعة الاستنتاج. استبدل الإطار مشفر wav2vec2 بمشفر صوت whisper-large-v3، مما حسّن تزامن حركة الفم وحركة الشفاه الديناميكية، وزاد من مرونة توليد حركات الفم متعددة اللغات وعبر اللغات. تم تحسين النموذج من خلال التعلم المعزز بواسطة GRPO، مما قلل من تشوهات اليد والأطراف، وتقليل الإطارات المكررة غير الطبيعية، وزاد من اتساق الهوية في الفيديوهات الطويلة. يستخدم الإطار استنتاج متعدد المقاطع مع تمرير متدرج، حيث يبني سياق زمني عالمي باستخدام الفيديو السابق، للحفاظ على استمرارية هوية الشخصية. أدخل طرف الاستنتاج تقنية تقطير خطوة قليلة DMD2، مما قلل من تكرار إزالة الضوضاء في التوليد إلى 8 خطوات، لتحقيق توازن بين كفاءة الاستنتاج وواقعية الصورة. استندت التقييمات إلى 508 مجموعة من الصور والأصوات المرفقة، حيث جمع 770 مقيّم 13240 قرارًا، وقيم 10 خبراء من زوايا متعددة. يمكن تعميم الإطار على أنماط الرسوم المتحركة والحيوانات، ويدعم إدخال صوت أحادي أو متعدد القنوات، وتم إصدار أوزان النموذج بموجب اتفاقية MIT، وتُعرض المحتويات لأغراض أكاديمية فقط، ويجب التحقق من المحتوى قبل الاستخدام التجاري.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 11
  • 3
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
MoonlightColdWallet
· 05-22 10:09
GRPO يركز على تفاصيل اليدين بشكل ممتع، المشكلة القديمة لنماذج الانتشار هي كارثة الأصابع
شاهد النسخة الأصليةرد0
BudgetValidator
· 05-22 07:58
whisper-large-v3 وضعه أصبح يتطابق مع حركة الشفاه بشكل أدق بكثير، سابقًا كانت سيناريوهات wav2vec2 متعددة اللغات غالبًا لا تتطابق.
شاهد النسخة الأصليةرد0
GateUser-6319729f
· 05-22 07:31
رخصة MIT تحظى بتقييم جيد، لكن يجب مراجعة شروط الاستخدام التجاري بعناية، لتجنب الوقوع في المشاكل
شاهد النسخة الأصليةرد0
GateUser-af0ea0c9
· 05-22 07:26
تحسين استقرار الزمكان أكثر فائدة بكثير من مجرد زيادة FID، وأخيرًا أصبح توليد الفيديو يتنافس في الاتجاه الصحيح
شاهد النسخة الأصليةرد0
SlippageSailor
· 05-22 07:19
هل تود وضع مجموعة البيانات التي تركز على الأكاديميين؟ أريد أن أرى إذا كان بإمكاننا إعادة الإنتاج.
شاهد النسخة الأصليةرد0
GateUser-f4ae43e9
· 05-22 07:19
تصميم التفسير المتسلسل متعدد المقاطع ذكي، وعدم تعطل الوجه في الفيديو الطويل هو الأمر الأهم.
شاهد النسخة الأصليةرد0
GotLiquidatedAgainLastNight.
· 05-22 07:10
هل من اختار اسم LongCat؟ هل مهندسو Meituan يلتقطون صور القطط أيضًا؟
شاهد النسخة الأصليةرد0
DeltaSmile
· 05-22 07:10
يدعم جميع أوضاع الصوت المتعددة، وهو مناسب جدًا كأداة لصناعة الصوتيات
شاهد النسخة الأصليةرد0
SeaSaltAirdropNotes
· 05-22 07:10
تطابق الهوية أخيرًا أصبح شخص ما يأخذ الأمر بجدية، في السابق كانت النصف الأخير من فيديوهات التبديل الوجوه غالبًا ما يتغير فيها الأشخاص
شاهد النسخة الأصليةرد0
CrystalBallForSentiment
· 05-22 07:10
كم هو مقدار تحسين كفاءة DMD2؟ هل لديك بيانات عن زمن الاستجابة على A100؟
شاهد النسخة الأصليةرد0
عرض المزيد
  • مُثبت