طبقة انتباه مزدوجة تجمع بين التصفية الأولية والحساب الدقيق، مع العودة إلى الانتباه الكامل في المراحل الأخيرة من التدريب لمنع القفز على القراءة، أداء نموذج 5.3 مليار لم ينخفض بل ارتفع. أخيرًا، لم يعد من الضروري تراكم البطاقات لمواجهة السياق الطويل.

شاهد النسخة الأصلية
MeNews
نحن نفتح مصدر Lighthouse Attention: وحدة B200 واحدة تسرع من 512K بمقدار 17 مرة
AIMPACT تقول إن Nous Research أطلقت آلية التدريب المسبق ذات السياق الطويل المفتوحة المصدر، وهي "Lighthouse Attention". معالجة بطاقة واحدة B200 لنصوص بطول 512 ألف كلمة أسرع بحوالي 17 مرة، وبتسريع من 98 ألف كلمة بمعدل 1.4 إلى 1.7 مرة. تعتمد الآلية على تصفية أولية ثم تقييم دقيق، حيث يتم تصفية المقاطع الأساسية من خلال ملخصات متعددة المستويات وتجميعها في نص قصير، ثم يتم معالجتها بواسطة FlashAttention؛ وتتم عملية التصفية خارج نواة المعالجة، مما يلغي الحاجة إلى تعديل الكود الأساسي أو أهداف تدريب إضافية. ولتجنب فقدان قدرة القراءة الحرفية عند قفز النموذج بين النصوص، يتم أثناء التدريب إكمال معظم العمليات باستخدام وضع التسريع، ثم يتم العودة مؤقتًا إلى الانتباه الكامل في النهاية. في تجربة تحتوي على 5.3 مليار معلمة و500 مليار رمز، انخفض الوقت بشكل ملحوظ، وبلغ الأداء النهائي مساويًا أو متفوقًا على الأساسيات التقليدية.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت