128 بطاقة A100 من الصفر لتدريبها! شركة Byte تفتح مصدر نموذج متعدد الأوضاع شامل بقوة 3 مليارات Lance

أخبار ME News، 19 مايو (بتوقيت UTC+8)، وفقًا لمراقبة 动察 Beating، أطلقت شركة ByteDance Research رسميًا النموذج متعدد الوسائط الموحد الأصلي Lance كمصدر مفتوح. هذا نموذج خفيف الوزن يقتصر على 3 مليارات من المعاملات، ويدعم فهم وتوليد وتحرير الصور والفيديوهات في إطار واحد. حاليًا، تعتمد النماذج الموحدة السائدة بشكل كبير على زيادة حجم المعاملات أو استخدام بنية رسم النصوص، بينما يختبر Lance مسار التعاون منخفض الحسابات جدًا. قام فريق البحث والتطوير بتدريب النموذج من الصفر تمامًا، وخفض إجمالي ميزانية الحسابات خلال دورة التدريب إلى 128 بطاقة GPU من نوع A100. لحل النزاعات الداخلية بين الوسائط المختلفة والمهام، قام Lance بإجراء فصلين صارمين في الهيكلية: - اعتماد بنية خبراء مختلطين مزدوجي التدفق (MoE) لمعالجة تسلسلات الوسائط المتعددة المترابطة، مع مشاركة السياق الأساسي، وفصل مسارات الحساب بين الفهم والتوليد. - إدخال ترميز موضع دوار مدرك للوسائط، يقلل مباشرة من تداخل الإشارات بين رموز الرؤية غير المتجانسة للصور والفيديو. لم يقلل الضغط الشديد على القدرة الحسابية من الحد الأقصى للأداء. ففي ظل وجود 3 مليارات من المعاملات فقط، يتصدر Lance أداء توليد وتحرير الصور والفيديو في معظم الاختبارات المعيارية، من خلال مسار منخفض التكلفة يوازن بين التوليد والفهم الدلالي عبر التعاون متعدد المهام، ويحقق نتائج جيدة مع المعاملات الصغيرة. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت