تم فتح المصدر! Nous هذه المرة وضعت منطق التصفية خارج النواة، لا حاجة لتغيير الطبقة الأساسية CUDA ولا لإضافة هدف تدريب، يمكن استخدامها مباشرة، وتم التعامل مع مشكلة النصوص الطويلة في البنية التحتية.

شاهد النسخة الأصلية
MeNews
نحن نفتح مصدر Lighthouse Attention: وحدة B200 واحدة تسرع من 512K بمقدار 17 مرة
AIMPACT تقول، Nous Research تطلق آلية التدريب المسبق ذات السياق الطويل المفتوحة المصدر Lighthouse Attention. معالجة بطاقة واحدة B200 لنصوص بطول 512 ألف تقريبًا بسرعة حوالي 17 ضعفًا، وبتسريع من 98 ألف إلى 1.4-1.7 ضعف في النهاية. تقوم الآلية بفرز أولي ثم حساب دقيق، من خلال تصفية ملخصات متعددة المستويات لاستخراج المقاطع الأساسية وتجميعها في نص قصير، ثم يتم معالجتها بواسطة FlashAttention؛ منطق التصفية خارج النواة، مما يلغي الحاجة إلى التعليمات البرمجية الأساسية والأهداف التدريبية الإضافية. لتجنب فقدان قدرة القراءة الحرفية بسبب قفز النموذج، يتم إكمال معظم العملية بسرعة أثناء التدريب باستخدام وضع التسريع، ثم يتم العودة مؤقتًا إلى الانتباه الكامل في النهاية. في تجربة تحتوي على 5.3 مليار معلمة و500 مليار رمز، انخفض الوقت بشكل ملحوظ، وكانت الأداء النهائي مماثلاً أو متفوقًا على الخطوط الأساسية التقليدية.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت