VOID هو إطار عمل ذكاء اصطناعي تم تطويره بالتعاون بين معهد ناي فيف و INSAIT لإزالة الأجسام من الفيديو وإعادة إنتاج السلوك الفيزيائي المتبقي، وتم إصداره كمصدر مفتوح في أبريل. يتكون من ثلاث مراحل: 1) توليد quadmask بواسطة SAM2/ Gemini، مع تحديد الكائن الرئيسي، مناطق التداخل، المناطق المتأثرة والخلفية؛ 2) الاستنتاج في المرحلة الأولى يعتمد على التعديل الدقيق لـ CogVideoX-Fun-V1.5؛ 3) استقرار اختياري باستخدام ضوضاء التدفق الضوئي. يستخدم التدريب بيانات Kubric و HUMOTO، مع 8 وحدات A100، ويستلزم الاستنتاج أكثر من 40 جيجابايت. أظهرت اختبارات التفضيل أن VOID يحقق نسبة 64.8%، أعلى من Runway. لم يتم تقييم الورقة البحثية، والمصدر من GitHub.

MeNews

2026-04-29 04:25:03

إنشاء الملخص قيد التقدم

رسالة AIMPACT، في 14 أبريل (بتوقيت UTC+8)، قام معهد نتفليكس للأبحاث بالتعاون مع جامعة صوفيا في بلغاريا INSAIT بتطوير VOID (حذف كائن الفيديو والتفاعل)، وهو إطار عمل ذكاء اصطناعي قادر على إزالة الأجسام من الفيديو وإعادة محاكاة السلوك الفيزيائي للمشاهد المتبقية. في 3 أبريل، تم إصدارها بموجب ترخيص Apache 2.0 على منصة Hugging Face، وهي أول أداة ذكاء اصطناعي تنشرها نتفليكس علنًا.

تتقن أدوات مسح الفيديو التقليدية ملء الخلفية، وتصحيح الظلال والانعكاسات، لكن عندما تواجه مشاهد تتضمن تلامسًا فيزيائيًا بين الأجسام (تصادم، دعم، دفع)، فإنها تتعرض للفشل. القدرة الأساسية لـ VOID هي فهم الأسباب والنتائج الفيزيائية: إزالة قطعة من صف من الدومينو، لن تستمر الدومينوهات التالية في السقوط؛ إزالة شخص يقفز إلى المسبح، لن تتناثر المياه على السطح؛ إزالة شخص يحمل جيتار، سيسقط الجيتار بشكل طبيعي.

خط الأنابيب التقني يتكون من ثلاث طبقات:

تقوم Meta’s SAM2 بتقسيم الأجسام، وGoogle’s Gemini بتحليل دلالات المشهد، وتوليد «quadmask» رباعية القيم، والتي تحدد الكائن الرئيسي، والمنطقة المتداخلة، والمنطقة المتأثرة، والخلفية، وتخبر النموذج بما يجب مسحه وما الذي سيتغير نتيجة لذلك.
استنتاج المرحلة الأولى المبني على Fine-tuning باستخدام نموذج التحويل المنتشر من Alibaba’s CogVideoX-Fun-V1.5-5b-InP (موجه بـ 5 مليار معلمات) لتوليد مسارات مضادة للفيزياء بشكل منطقي.
المرحلة الثانية الاختيارية «ثبات الضوضاء التدفق الضوئي»، تستخدم حركة التوقعات من المرحلة الأولى لتهيئة الضوضاء المرتبطة بالزمن، لمنع تشوه الأجسام في المقاطع الطويلة.

تم تدريب البيانات باستخدام مجموعتين من المحاكاة الفيزيائية: حوالي 1900 مجموعة من بيانات ديناميكا الأجسام الصلبة من Kubric، وحوالي 4500 مجموعة من بيانات التقاط حركة الجسم من HUMOTO، على 8 وحدات GPU من نوع A100 بسعة 80 جيجابايت. في اختبار تفضيل لـ 25 شخصًا، حقق VOID معدل اختيار بنسبة 64.8%، متفوقًا بشكل كبير على أداة تجارية مثل Runway بنسبة 18.4%. يتطلب الاستنتاج أكثر من 40 جيجابايت من ذاكرة الفيديو (مستوى A100). لا تزال الورقة البحثية غير مراجعة من قبل الأقران، ولم تعلن نتفليكس عن نيتها لدمجها في عمليات الإنتاج. (المصدر: GitHub)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
WCTCTradingKingPK
360.04K درجة الشعبية
#
CryptoMarketsDipSlightly
264.52K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
35.94K درجة الشعبية
#
#DailyPolymarketHotspot
696.99K درجة الشعبية
#
StrategyAccumulates2xMiningRate
139.47M درجة الشعبية

تثبيت

خريطة الموقع

نموذج حذف الفيديو مفتوح المصدر من نيتفليكس VOID: لا يقتصر على حذف الأجسام فحسب، بل يمكنه أيضًا إعادة حساب الحركة الفيزيائية للأجسام المتبقية

المواضيع الرائجة

WCTCTradingKingPK

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

StrategyAccumulates2xMiningRate

تثبيت