فصل الوقت عن الصوت هذا التصميم ممتع جدًا، أخيرًا لن أضطر للاستماع إلى تلك المؤثرات الصوتية المعلبة المكررة التي تنتجها الذكاء الاصطناعي، أتطلع لتجربته عمليًا.

شاهد النسخة الأصلية
CoinNetwork
أخبار شبكة عملة، أطلقت فريق تطبيقات النموذج الكبير لشركة Xiaomi إطار عمل توليد الفيديو والصوت ControlFoley وفتح مصدره. يركز هذا النموذج على «التحكم»، حيث يمكنه توليد أصوات تتوافق مع المشهد، كما يمكنه قبول الوصف النصي أو الصوت المرجعي، لجعل الصوت يتوافق مع نية المبدع. يستخدم ControlFoley مشفر صوت وفيديو زمني مكاني معدل من أساس cav-mae، ويدخل استراتيجية «فصل الوقت والنغمة الصوتية»، لضمان تزامن الصوت مع الصورة. حقق هذا النموذج مستوى SOTA مفتوح المصدر في العديد من اختبارات التعليق الصوتي للفيديو العادية، وتم إصدار التقرير الفني، والكود، وأوزان النموذج، والعرض التوضيحي.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت