من Whisper إلى تقطير DMD2، تكديس التكنولوجيا قوي جدًا، وتعميم اللغات المتعددة والأسلوب الأنمي يجذبني جدًا كشخص يقوم بالإبداع الثانوي.

شاهد النسخة الأصلية
MeNews
ميتوان مفتوح المصدر LongCat-Video-Avatar1.5 إطار العمل للرقمنة البشرية، تقليل استنتاجه إلى 8 خطوات
فريق ميتيون LongCat يطلق مصدر LongCat-Video-Avatar 1.5، مع نشر كامل الشفرة والأوزان. تم استبدال النموذج بـ Whisper-large-v3 لتحسين مزامنة الشفاه متعددة اللغات وتعميم الأسلوب، باستخدام استنتاج متدحرج متعدد المقاطع وتقنية التقطير ذات الخطوات القليلة المستندة إلى DMD2 لتقليل خطوات الاستنتاج إلى 8، مع موازنة بين السرعة والدقة. بعد تقييم 508 عينات من البيانات الأصلية، و770 مقيّمًا، و13240 قرارًا، و10 خبراء تقييم، تم تحسين استقرار التسلسل الزمني، واتساق الهوية، والطبيعية في حركة الشفاه، مع القدرة على التعميم إلى أنماط الرسوم المتحركة والحيوانات، مع دعم أصلي للصوت الأحادي والمتعدد القنوات. مرخص بموجب ترخيص MIT، ويُستخدم بشكل رئيسي للأغراض الأكاديمية، ويجب التحقق من الاستخدام التجاري بشكل منفصل.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت