رسالة AIMPACT، 28 أبريل (التوقيت العالمي +8)، وفقًا لمراقبة Beating من 动察، اقترحت فريق معهد أبحاث مايكروسوفت وجامعة Zhejiang نموذج World-R1، باستخدام التعلم المعزز لجعل نموذج الفيديو النصي يتعلم التوافق الهندسي ثلاثي الأبعاد، دون تعديل بنية النموذج، ولا الاعتماد على مجموعات بيانات ثلاثية الأبعاد. الفكرة الأساسية: بعد إنشاء الفيديو، يتم إعادة بناء مشهد ثلاثي الأبعاد باستخدام نموذج أساسي ثلاثي الأبعاد مدرب مسبقًا Depth Anything 3، ثم يتم التصيير من منظور جديد ومقارنته بالفيديو الأصلي، حيث يتم دمج خطأ إعادة البناء، انحراف المسار، وموثوقية دلالات المنظور الجديد (بتقييم Qwen3-VL) في إشارة مكافأة، ويتم تغذية النموذج عبر Flow-GRPO (خوارزمية تعلم معزز تتكيف مع نماذج التوافق التدفقية). النموذج الأساسي مفتوح المصدر وهو Wan 2.1 (1.3 مليار و14 مليار)، وتم تدريب نسختين هما World-R1-Small وWorld-R1-Large. بيانات التدريب تتكون من حوالي 3000 أمر نصي نقي تم إنشاؤه بواسطة Gemini، دون استخدام أي أصول ثلاثية الأبعاد. أثناء التدريب، يتم إدراج دورة “تعديل ديناميكي” كل 100 خطوة، مع إيقاف مكافأة 3D مؤقتًا، مع الاحتفاظ فقط بمكافأة جودة الصورة، لمنع النموذج من قمع حركات الشخصيات وغيرها من الحركات غير الصلبة بهدف الحفاظ على الصلابة الهندسية. على مقياس التوافق الثلاثي الأبعاد، حقق نموذج World-R1-Large زيادة في PSNR (نسبة إشارة إلى ضوضاء الذروة) بمقدار 7.91 ديسيبل مقارنة بنموذج Wan 2.1 14B، ونسخة Small زادت بمقدار 10.23 ديسيبل. جودة الفيديو العامة في VBench لم تنخفض بل زادت. في اختبار عمياء لـ 25 شخصًا، بلغت نسبة الفوز في التوافق الهندسي 92%، والتفضيل العام 86%. الكود مفتوح المصدر على GitHub، برخصة CC BY-NC-SA 4.0. (المصدر: BlockBeats)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
WCTCTradingKingPK
326.86K درجة الشعبية
#
CryptoMarketsDipSlightly
228.5K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
35.11K درجة الشعبية
#
#DailyPolymarketHotspot
659.72K درجة الشعبية
#
SolanaReleasesQuantumRoadmap
12.75M درجة الشعبية

تثبيت

خريطة الموقع

مايكروسوفت World-R1: تعليم نماذج الفيديو باستخدام التعلم المعزز "فهم" 3D، بدون تعديل الهيكل، ارتفاع PSNR بمقدار 10 ديسيبل

المواضيع الرائجة

WCTCTradingKingPK

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SolanaReleasesQuantumRoadmap

تثبيت