مرحلة الاستنتاج فقط يتم فيها وضع التخطيط، النموذج الأساسي لا يحتاج إلى تعديل، إذا كانت هذه التحسينات القابلة للتوصيل والتشغيل تعتمد على قوة الحوسبة، فإن توليد الفيديوهات الطويلة يمكن أن يتحول حقًا من عملية سحر إلى عملية هندسية

شاهد النسخة الأصلية
BlockBeatNews
إدخال بحث ألفا غو، إطار عمل جديد لتوليد الفيديو باستخدام بحث مونت كارلو الشامل، مدة الفيديو الطويلة تتجاوز سورا
اقترحت الورقة إدخال إطار عمل التخطيط عند الاستنتاج الذي يستخدم بحث مونت كارلو متعدد الأشجار في مرحلة الاستنتاج، حيث يُنظر إلى توليد الفيديو الطويل كمشكلة قرار متسلسلة، من خلال التنبؤ المسبق والتراجع العكسي للمكافأة لتقييم العديد من المقاطع، مما يخفف بشكل كبير من انحراف المعنى وتراكم الأخطاء الناتج عن التوليد المقسم. الهيكل متعدد الأشجار يزيد من كفاءة البحث، ويمكن أن يكون حلاً محسنًا للاستنتاج يمكن فصله بالكامل، دون الحاجة إلى ضبط النموذج الأساسي. في تجربة Cosmos-Predict2، تم توليد فيديو متماسك عالي الجودة يتجاوز 20 ثانية، متفوقًا على خوارزميات البحث الجشع/القيود وBest-of-N من حيث استدامة الأجسام، والتسلسل الزمني، ومحاذاة النص؛ مقارنة بـ Sora وKling، زادت مدة الفيديو بنسبة 18% و47% على التوالي، مع الحفاظ على جودة الصورة. على الرغم من ارتفاع تكلفة الحوسبة، إذا تم تحسين النموذج الأساسي والأجهزة، فإن هذا النهج قد يدفع توليد الفيديو الطويل نحو التطبيق الهندسي.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت