بشكل أساسي، تمكنت إنتل من تقليل حجم الأوزان لكل نموذج بشكل كبير. كل وزن كان يشغل 2 بايت في BF16، والآن بعد التكميم بصيغة INT4، يشغل فقط 0.5 بايت. هذا يعني أن الحجم الإجمالي انخفض إلى حوالي الربع من الحجم الأصلي. الأداة المستخدمة كانت AutoRound.

النماذج الثلاثة التي تم إصدارها هي T2V-A14B (نص إلى فيديو)، I2V-A14B (صورة إلى فيديو) و TI2V-5B (مدخل هجين من نص وصورة). النماذج الأصلية A14B تعمل بمعمارية MoE مع 27 مليار معلمة، منها 14 مليار مفعلة في كل خطوة. بدون التكميم بصيغة INT4، تتطلب على الأقل 80 جيجابايت من VRAM لكل بطاقة رسومات للعمل بدقة 720p.

الأكثر عملية هو نموذج TI2V-5B، وهو نموذج كثيف يمكنه تشغيل فيديو بدقة 720p بمعدل 24 إطارًا في الثانية على بطاقة 4090 حتى في شكله الأصلي. تخيل مع تطبيق تحسين INT4.

الجانب المهم هو أن إنتل لم تكشف بعد عن اختبارات كاملة لاستهلاك VRAM أو جودة الصورة بعد التكميم بصيغة INT4. الأمر سيعتمد على التحقق من طرف ثالث. لمن يرغب في التجربة، تشير إنتل إلى فرع vllm-omni كخيار للنشر، حيث أن هذه النماذج لا تعمل في خط أنابيب vLLM الرئيسي.

هذا نوع من التحسين الذي يجعل نماذج الفيديو هذه أكثر وصولًا لمن لا يملك أجهزة عالية الأداء.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
Gate13thAnniversaryLive
1.05M درجة الشعبية
#
WCTCTradingChallengeShare8MUSDT
787.68K درجة الشعبية
#
BitcoinBouncesBack
161.05K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
30.66K درجة الشعبية
#
EthereumMemeSeasonReturns
1.99M درجة الشعبية

تثبيت

خريطة الموقع

لقد رأيت للتو أن إنتل وفرت على منصة Hugging Face نسخًا من نماذج الفيديو Wan 2.2 من Alibaba مضغوطة بصيغة INT4. هذا أمر مثير جدًا من ناحية تحسين النماذج.

المواضيع الرائجة

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

EthereumMemeSeasonReturns

تثبيت