التقرير الفني، الأوزان، العرض التوضيحي كلها مكشوفة، والمقارنة مع Kling-Foley ليست خادعة، أخيرًا أصبح لدى المجتمع المفتوح مصدر إطار عمل للفيديو والصوت يمكن الاعتماد عليه.

شاهد النسخة الأصلية
BlockBeatNews
شركة Xiaomi تفتح مصدر نموذج تعليق الفيديو ControlFoley، ويمكن للأفراد تحديد كيفية توافق الصوت مع المحتوى
في إطار مراقبة Beating، قام فريق Xiaomi بفتح مصدر إطار عمل الصوت والفيديو ControlFoley، مع التأكيد على القابلية للتحكم: توليد الصوت استنادًا إلى الصورة أو النص أو الصوت المرجعي، مع إمكانية تغيير نمط الصوت مع الحفاظ على تزامن الصوت والصورة. يعتمد الطبقة الأساسية على مشفر صوت وفيديو زمني مكاني معدل من CAV-MAE، مع تنفيذ فصل بين الوقت والنغمة. حقق تقييم المهام المتعددة أعلى مستوى في الحالة الفنية المفتوحة، ويتميز بالمنافسة عند المقارنة مع Kling-Foley، لكنه لا يزال يواجه فجوات في بعض مؤشرات KL مع Kling-Audio-Eval و MovieGen-Audio-Bench. تم نشر التقرير الفني، والكود، والأوزان، والعرض التوضيحي للمشروع.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت