هذه المرة، أظهرت شركة Xiaomi نية جادة من خلال إصدارها مفتوح المصدر ControlFoley، حيث تجمع بين فك الارتباط الزمني والمكاني والقدرة على التحكم في التوليد، وتزامن الصوت والصورة، مما يدل على فهم عميق لنقطة الألم في هذا المجال.

شاهد النسخة الأصلية
BlockBeatNews
شركة Xiaomi تفتح مصدر نموذج تعليق الفيديو ControlFoley، ويمكن للأفراد تحديد كيفية توافق الصوت مع المحتوى
في إطار مراقبة Beating، قام فريق Xiaomi بفتح مصدر إطار عمل الصوت والفيديو ControlFoley، مع التأكيد على القابلية للتحكم: توليد الصوت استنادًا إلى الصورة أو النص أو الصوت المرجعي، مع إمكانية تغيير نمط الصوت مع الحفاظ على تزامن الصوت والصورة. يعتمد الطبقة الأساسية على مشفر صوت وفيديو زمني مكاني معدل من CAV-MAE، مع تنفيذ فصل بين الوقت والنغمة. حقق تقييم المهام المتعددة أعلى مستوى في الحالة الفنية المفتوحة، ويتميز بالمنافسة عند المقارنة مع Kling-Foley، لكنه لا يزال يواجه فجوات في بعض مؤشرات KL مع Kling-Audio-Eval و MovieGen-Audio-Bench. تم نشر التقرير الفني، والكود، والأوزان، والعرض التوضيحي للمشروع.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت