مايكروسوفت World-R1: تعليم نماذج الفيديو باستخدام التعلم المعزز "فهم" 3D، بدون تعديل الهيكل، ارتفاع PSNR بمقدار 10 ديسيبل

robot
إنشاء الملخص قيد التقدم

رسالة AIMPACT، 28 أبريل (التوقيت العالمي +8)، وفقًا لمراقبة Beating من 动察، اقترحت فريق معهد أبحاث مايكروسوفت وجامعة Zhejiang نموذج World-R1، باستخدام التعلم المعزز لجعل نموذج الفيديو النصي يتعلم التوافق الهندسي ثلاثي الأبعاد، دون تعديل بنية النموذج، ولا الاعتماد على مجموعات بيانات ثلاثية الأبعاد. الفكرة الأساسية: بعد إنشاء الفيديو، يتم إعادة بناء مشهد ثلاثي الأبعاد باستخدام نموذج أساسي ثلاثي الأبعاد مدرب مسبقًا Depth Anything 3، ثم يتم التصيير من منظور جديد ومقارنته بالفيديو الأصلي، حيث يتم دمج خطأ إعادة البناء، انحراف المسار، وموثوقية دلالات المنظور الجديد (بتقييم Qwen3-VL) في إشارة مكافأة، ويتم تغذية النموذج عبر Flow-GRPO (خوارزمية تعلم معزز تتكيف مع نماذج التوافق التدفقية). النموذج الأساسي مفتوح المصدر وهو Wan 2.1 (1.3 مليار و14 مليار)، وتم تدريب نسختين هما World-R1-Small وWorld-R1-Large. بيانات التدريب تتكون من حوالي 3000 أمر نصي نقي تم إنشاؤه بواسطة Gemini، دون استخدام أي أصول ثلاثية الأبعاد. أثناء التدريب، يتم إدراج دورة “تعديل ديناميكي” كل 100 خطوة، مع إيقاف مكافأة 3D مؤقتًا، مع الاحتفاظ فقط بمكافأة جودة الصورة، لمنع النموذج من قمع حركات الشخصيات وغيرها من الحركات غير الصلبة بهدف الحفاظ على الصلابة الهندسية. على مقياس التوافق الثلاثي الأبعاد، حقق نموذج World-R1-Large زيادة في PSNR (نسبة إشارة إلى ضوضاء الذروة) بمقدار 7.91 ديسيبل مقارنة بنموذج Wan 2.1 14B، ونسخة Small زادت بمقدار 10.23 ديسيبل. جودة الفيديو العامة في VBench لم تنخفض بل زادت. في اختبار عمياء لـ 25 شخصًا، بلغت نسبة الفوز في التوافق الهندسي 92%، والتفضيل العام 86%. الكود مفتوح المصدر على GitHub، برخصة CC BY-NC-SA 4.0. (المصدر: BlockBeats)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت