الانتقال من wav2vec2 إلى whisper-large-v3 أدى إلى تحسين واضح في مقاومة تزامن الشفاه متعدد اللغات، ويجب أن نكون واضحين بشأن الحد الفاصل بين الاستخدام الأكاديمي والتجاري

شاهد النسخة الأصلية
CoinNetwork
ميتوان تفتح مصدر LongCat-Video-Avatar 1.5 إطار العمل للرقم البشري، وتقليل استنتاجه إلى 8 خطوات
فريق ميتيونغ تشانغماو يطلق مصدر LongCat-Video-Avatar 1.5، مع إعادة هيكلة لتوليد الصوت والفيديو لتحسين الاستقرار الزمني والمكاني وسرعة الاستنتاج. استبدال wav2vec2 بـ whisper-large-v3، لتعزيز تزامن حركة الشفاه ومرونة اللغات المتعددة؛ من خلال تعزيز التعلم بواسطة GRPO لتقليل الظلال الزائفة للأيدي والإطارات الخاطئة، وزيادة اتساق هوية الفيديو الطويل. اعتماد استنتاج متدفق متعدد المقاطع وسياق سابق، توازن بين الكفاءة والصدق باستخدام DMD2 بتعليم 8 خطوات. يمكن تعميم الإطار ليشمل أنماط الرسوم المتحركة/الحيوانات، يدعم الصوت الأحادي/متعدد القنوات، ترخيص MIT، للاستخدام الأكاديمي بشكل رئيسي، يرجى التحقق من الاستخدام التجاري.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت