لقد رأيت للتو أن إنتل وفرت على منصة Hugging Face نسخًا من نماذج الفيديو Wan 2.2 من Alibaba مضغوطة بصيغة INT4. هذا أمر مثير جدًا من ناحية تحسين النماذج.



بشكل أساسي، تمكنت إنتل من تقليل حجم الأوزان لكل نموذج بشكل كبير. كل وزن كان يشغل 2 بايت في BF16، والآن بعد التكميم بصيغة INT4، يشغل فقط 0.5 بايت. هذا يعني أن الحجم الإجمالي انخفض إلى حوالي الربع من الحجم الأصلي. الأداة المستخدمة كانت AutoRound.

النماذج الثلاثة التي تم إصدارها هي T2V-A14B (نص إلى فيديو)، I2V-A14B (صورة إلى فيديو) و TI2V-5B (مدخل هجين من نص وصورة). النماذج الأصلية A14B تعمل بمعمارية MoE مع 27 مليار معلمة، منها 14 مليار مفعلة في كل خطوة. بدون التكميم بصيغة INT4، تتطلب على الأقل 80 جيجابايت من VRAM لكل بطاقة رسومات للعمل بدقة 720p.

الأكثر عملية هو نموذج TI2V-5B، وهو نموذج كثيف يمكنه تشغيل فيديو بدقة 720p بمعدل 24 إطارًا في الثانية على بطاقة 4090 حتى في شكله الأصلي. تخيل مع تطبيق تحسين INT4.

الجانب المهم هو أن إنتل لم تكشف بعد عن اختبارات كاملة لاستهلاك VRAM أو جودة الصورة بعد التكميم بصيغة INT4. الأمر سيعتمد على التحقق من طرف ثالث. لمن يرغب في التجربة، تشير إنتل إلى فرع vllm-omni كخيار للنشر، حيث أن هذه النماذج لا تعمل في خط أنابيب vLLM الرئيسي.

هذا نوع من التحسين الذي يجعل نماذج الفيديو هذه أكثر وصولًا لمن لا يملك أجهزة عالية الأداء.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت