انتباه المنارة هذه الفكرة ذكية جدًا، تبدأ بالتصنيف العام ثم التقييم الدقيق، وأخيرًا لم يعد من الضروري التمسك بالنصوص الطويلة بقسوة

شاهد النسخة الأصلية
MeNews
نحن نفتح مصدر Lighthouse Attention: تشغيل B200 واحد بسرعة 512K يسرع الأداء بمقدار 17 مرة
AIMPACT تقول إن Nous Research أطلقت آلية التدريب المسبق ذات السياق الطويل المفتوحة المصدر، وهي "Lighthouse Attention". معالجة بطاقة واحدة B200 لنصوص بطول 512 ألف كلمة أسرع بحوالي 17 مرة، وبتسريع من 98 ألف كلمة بمعدل 1.4 إلى 1.7 مرة في النهاية. تعتمد الآلية على تصفية أولية ثم تقييم دقيق، حيث يتم تصفية المقاطع الأساسية من خلال ملخصات متعددة المستويات وتجميعها في نص قصير، ثم يتم معالجتها بواسطة FlashAttention؛ وتتم عملية التصفية خارج نواة المعالجة، مما يلغي الحاجة إلى تعديل الكود الأساسي أو أهداف تدريب إضافية. ولتجنب فقدان قدرة القراءة الحرفية عند قفز النموذج بين المقاطع، يتم أثناء التدريب إكمال معظم العمليات باستخدام وضع التسريع، ثم يتم العودة مؤقتًا إلى الانتباه الكامل في النهاية. في تجربة تحتوي على 5.3 مليار معلمة و500 مليار رمز، انخفض الوقت بشكل ملحوظ، وكانت الأداء النهائي مساويًا أو متفوقًا على الأساسيات التقليدية.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت