128 بطاقة A100 من الصفر لتدريبها! بايتون تفتح مصدر نموذج متعدد الوسائط شامل 3B Lance

robot
إنشاء الملخص قيد التقدم
أخبار ME، 19 مايو (بتوقيت UTC+8)، وفقًا لمراقبة 动察 Beating، أطلقت شركة ByteDance Research رسميًا النموذج متعدد الوسائط الموحد الأصلي مفتوح المصدر Lance. هذا نموذج خفيف الوزن يقتصر على 3 مليارات من المعاملات، ويدعم فهم وتوليف وتحرير الصور والفيديوهات في إطار واحد. حاليًا، تعتمد النماذج الموحدة السائدة بشكل كبير على زيادة حجم المعاملات أو استخدام بنية رسم النصوص، بينما يختبر Lance مسار التعاون منخفض الحسابات جدًا. قام فريق البحث والتطوير بتدريب النموذج من الصفر تمامًا، وخفض إجمالي ميزانية الحسابات خلال دورة التدريب إلى 128 بطاقة GPU من نوع A100. لمعالجة الصراعات الداخلية بين الوسائط والمهام المختلفة، قام Lance بإجراء فصلين صارمين في الهيكلية: - اعتماد بنية خبراء مختلطين مزدوجي التدفق (MoE) لمعالجة تسلسلات الوسائط المتعددة المترابطة، مع مشاركة السياق الأساسي، وفصل مسارات الحساب بين الفهم والتوليف. - إدخال ترميز موضع دوار مدرك للوسائط، لتقليل تداخل الإشارات بين رموز الرؤية غير المتجانسة للصور والفيديو. لم يقلل الضغط الشديد على القدرة الحسابية من الحد الأقصى للأداء. ففي ظل وجود 3 مليارات من المعاملات فقط، يتصدر Lance أداء توليف وتحرير الصور والفيديو في معظم الاختبارات المعيارية، ويحقق مسارًا منخفض التكلفة يجمع بين التوليف والفهم الدلالي من خلال التعاون متعدد المهام، باستخدام عدد قليل من المعاملات. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت