هندسة TwoTower من NVIDIA تعزز كفاءة النماذج الكبيرة باستخدام نماذج متوازية بحجم 30B

وفقًا لمراقبة Beating، قامت NVIDIA بفتح مصدر بنية نشر النص المنفصلة Nemotron-Labs-TwoTower، بهدف معالجة عنق الزجاجة في سرعة التوليد للنماذج الكبيرة التي لا تستطيع إنتاج سوى كلمة واحدة في كل مرة. والنماذج السابقة لنشر النص كانت تجبر شبكة واحدة على الموازنة بين فهم السياق أحادي الاتجاه والتصحيح المتوازي ثنائي الاتجاه سعيًا للإخراج المتوازي، مما أدى إلى انخفاض كبير في القدرة الإدراكية للنموذج. تستخدم بنية TwoTower تصميمًا منفصلًا: من ناحية، تجمد تمامًا نموذجًا كبيرًا ذاتي الانحدار مدربًا مسبقًا كـ "برج سياق للقراءة فقط" للاحتفاظ بقدرات الاستدلال والفطرة السليمة الكاملة؛ ومن ناحية أخرى، تدرب بشكل منفصل "برج كتابة لإزالة الضوضاء" يقرأ المعلومات السياقية من خلال الانتباه المتقاطع على مستوى الطبقة. يستخدم برج الكتابة آلية "إزالة القناع القائمة على الثقة"، حيث يفضل كتابة الكلمات عالية الثقة عند توقع كتلة، ثم يملأ الفجوات المتبقية تدريجيًا لتحقيق الكتابة المتوازية من السهل إلى الصعب. يتكيف هذا التصميم مع نموذج هجين من المستوى 30B (Mamba-Transformer MoE) باستخدام 1/12 فقط من بيانات التدريب المسبق للنموذج الأساسي (2.1 تريليون رمز)، مع الاحتفاظ بنسبة 98.7% من الجودة مع تحسين سرعة التوليد الفعلية بمقدار 2.42 مرة، دون إضافة تكاليف إضافية لذاكرة التخزين المؤقت. ومع ذلك، نظرًا للحاجة إلى الاحتفاظ بكلا البرجين في الذاكرة، زاد استخدام الذاكرة الثابتة للنموذج، ولا يزال هناك انخفاض طفيف في الدقة في الاستدلالات الرياضية والبرمجية المعقدة للغاية.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت