نموذج حذف الفيديو مفتوح المصدر من نيتفليكس VOID: لا يقتصر على حذف الأجسام فحسب، بل يمكنه أيضًا إعادة حساب الحركة الفيزيائية للأجسام المتبقية

robot
إنشاء الملخص قيد التقدم

رسالة AIMPACT، في 14 أبريل (بتوقيت UTC+8)، قام معهد نتفليكس للأبحاث بالتعاون مع جامعة صوفيا في بلغاريا INSAIT بتطوير VOID (حذف كائن الفيديو والتفاعل)، وهو إطار عمل ذكاء اصطناعي قادر على إزالة الأجسام من الفيديو وإعادة محاكاة السلوك الفيزيائي للمشاهد المتبقية. في 3 أبريل، تم إصدارها بموجب ترخيص Apache 2.0 على منصة Hugging Face، وهي أول أداة ذكاء اصطناعي تنشرها نتفليكس علنًا.

تتقن أدوات مسح الفيديو التقليدية ملء الخلفية، وتصحيح الظلال والانعكاسات، لكن عندما تواجه مشاهد تتضمن تلامسًا فيزيائيًا بين الأجسام (تصادم، دعم، دفع)، فإنها تتعرض للفشل. القدرة الأساسية لـ VOID هي فهم الأسباب والنتائج الفيزيائية: إزالة قطعة من صف من الدومينو، لن تستمر الدومينوهات التالية في السقوط؛ إزالة شخص يقفز إلى المسبح، لن تتناثر المياه على السطح؛ إزالة شخص يحمل جيتار، سيسقط الجيتار بشكل طبيعي.

خط الأنابيب التقني يتكون من ثلاث طبقات:

  1. تقوم Meta’s SAM2 بتقسيم الأجسام، وGoogle’s Gemini بتحليل دلالات المشهد، وتوليد «quadmask» رباعية القيم، والتي تحدد الكائن الرئيسي، والمنطقة المتداخلة، والمنطقة المتأثرة، والخلفية، وتخبر النموذج بما يجب مسحه وما الذي سيتغير نتيجة لذلك.

  2. استنتاج المرحلة الأولى المبني على Fine-tuning باستخدام نموذج التحويل المنتشر من Alibaba’s CogVideoX-Fun-V1.5-5b-InP (موجه بـ 5 مليار معلمات) لتوليد مسارات مضادة للفيزياء بشكل منطقي.

  3. المرحلة الثانية الاختيارية «ثبات الضوضاء التدفق الضوئي»، تستخدم حركة التوقعات من المرحلة الأولى لتهيئة الضوضاء المرتبطة بالزمن، لمنع تشوه الأجسام في المقاطع الطويلة.

تم تدريب البيانات باستخدام مجموعتين من المحاكاة الفيزيائية: حوالي 1900 مجموعة من بيانات ديناميكا الأجسام الصلبة من Kubric، وحوالي 4500 مجموعة من بيانات التقاط حركة الجسم من HUMOTO، على 8 وحدات GPU من نوع A100 بسعة 80 جيجابايت. في اختبار تفضيل لـ 25 شخصًا، حقق VOID معدل اختيار بنسبة 64.8%، متفوقًا بشكل كبير على أداة تجارية مثل Runway بنسبة 18.4%. يتطلب الاستنتاج أكثر من 40 جيجابايت من ذاكرة الفيديو (مستوى A100). لا تزال الورقة البحثية غير مراجعة من قبل الأقران، ولم تعلن نتفليكس عن نيتها لدمجها في عمليات الإنتاج. (المصدر: GitHub)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت