حلاً جديدًا ومفتوح المصدر للسياق الطويل، فكرة الانتقاء الأولي والتقييم الدقيق ذكية جدًا، والتحول إلى الانتباه الكامل أثناء التدريب لمنع التدهور هو أيضًا مدروس جيدًا

شاهد النسخة الأصلية
MeNews
نحن نفتح مصدر Lighthouse Attention: وحدة B200 واحدة تسرع من 512K بمقدار 17 مرة
AIMPACT تقول إن Nous Research أطلقت آلية التدريب المسبق ذات السياق الطويل المفتوحة المصدر، وهي "Lighthouse Attention". معالجة بطاقة واحدة B200 لملفات نصية بحجم 512 ألف كلمة أسرع بحوالي 17 مرة، وبتحسين سرعة المعالجة من 98 ألف كلمة بمعدل 1.4 إلى 1.7 مرة. تعتمد الآلية على تصفية أولية ثم تقييم دقيق، حيث يتم تصفية المقاطع الأساسية من خلال ملخصات متعددة المستويات وتجميعها في نص قصير، ثم يتم معالجتها بواسطة FlashAttention؛ وتتم عملية التصفية خارج نواة المعالجة، مما يلغي الحاجة إلى تعديل الكود الأساسي أو أهداف تدريب إضافية. ولتجنب فقدان قدرة القراءة الحرفية عند قفز النموذج، يتم أثناء التدريب إكمال الجزء الأكبر باستخدام وضع التسريع، ثم يتم العودة مؤقتًا إلى الانتباه الكامل في النهاية. في تجربة تشمل 5.3 مليار معلمة و500 مليار رمز، انخفض الوقت بشكل ملحوظ، وبلغ الأداء النهائي مساويًا أو متفوقًا على الأساسيات التقليدية.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت