انتباه المنارة هذه الفكرة رائعة، تبدأ بالتصنيف الأولي ثم الحساب الدقيق، تضع السياق الطويل في منطقة راحة FlashAttention، دون الحاجة لتغيير الطبقة الأساسية CUDA، بسرعة 17 ضعف عند تشغيل بطاقة واحدة B200 على 512K، ثم عند الانتهاء من التدريب تعود إلى الانتباه الكامل للحفاظ على الدقة، والطابع الهندسي واضح جدًا

شاهد النسخة الأصلية
MeNews
نحن نفتح مصدر Lighthouse Attention: تشغيل B200 واحد بسرعة 512K مع تسريع بمقدار 17 مرة
AIMPACT تقول إن Nous Research أطلقت آلية التدريب المسبق ذات السياق الطويل المفتوحة المصدر، وهي "Lighthouse Attention". معالجة بطاقة واحدة B200 لملف نصي بحجم 512 ألف كلمة أسرع بحوالي 17 مرة، وبتحسين سرعة المعالجة من 98 ألف كلمة بمعدل 1.4 إلى 1.7 مرة. تعتمد الآلية على تصفية أولية ثم تقييم دقيق، حيث يتم تصفية المقاطع الأساسية من خلال ملخصات متعددة المستويات وتجميعها في نص قصير، ثم يتم معالجتها بواسطة FlashAttention؛ وتتم عملية التصفية خارج نواة المعالجة، مما يلغي الحاجة إلى تعديل الكود الأساسي أو أهداف تدريب إضافية. ولتجنب فقدان قدرة القراءة الحرفية أثناء قفز النموذج، يتم في التدريب إتمام الجزء الأكبر باستخدام وضع التسريع، ثم يتم العودة مؤقتًا إلى الانتباه الكامل في النهاية. في تجربة تشمل 5.3 مليار معلمة و500 مليار رمز، انخفض الوقت بشكل ملحوظ، وبلغ الأداء النهائي مساويًا أو متفوقًا على الأساسيات التقليدية.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت