نشر Nous Research تقنية Lighthouse Attention، تسريع التدريب المسبق للسلاسل الطويلة بمقدار 1.4-1.7 مرة

AIMPACT رسالة، 17 مايو (UTC+8)، أطلقت شركة Nous Research طريقة Lighthouse Attention، التي تعتمد على آلية الانتباه الهرمية الاختيارية لحل مشكلة تزايد تكلفة حساب الانتباه بشكل تربيعي في التدريب المسبق للسلاسل الطويلة. تقوم هذه الطريقة بتماثل التجميع بين Query و Key و Value، مع وضع منطق الاختيار خارج نواة الانتباه، مما يسمح بإعادة استخدام نواة FlashAttention، وتتبنى استراتيجية تدريب من مرحلتين. أظهرت الاختبارات على NVIDIA B200، أن سرعة الانتقال الأمامي زادت بمقدار 21 مرة عند طول سياق حوالي 512 ألف، وزادت سرعة الانتقال الأمامي + العكسي معًا بمقدار 17.3 مرة، ووصلت القدرة على المعالجة في المرحلة الأولى إلى 126,000 رمز/ثانية/بطاقة GPU (مقابل 46,000 في SDPA الكثيف)، مع تسريع شامل يتراوح بين 1.40× و1.69×، مع الحفاظ على خسارة تدريبية مطابقة أو أقل. تم التحقق من ذلك على نموذج بأسلوب Llama-3 بعدد معلمات 530 مليون، حيث كانت ثلاث مجموعات من نتائج Lighthouse النهائية (0.698-0.71) أفضل من معيار SDPA الكثيف المدرب من الصفر (0.7237)، مع توفير 22.5-27 ساعة من وقت التدريب. الورقة العلمية arXiv:2605.06554.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت