انتباه المنارة هذه الفكرة ذكية جدًا، أولاً تصفية粗 ثم حساب دقيق، وأخيرًا لم يعد من الضروري التحمل بقوة للسياق الطويل

شاهد النسخة الأصلية
MeNews
نحن نفتح مصدر Lighthouse Attention: وحدة B200 واحدة تسرع من 512K بمقدار 17 مرة
AIMPACT تقول، Nous Research تطلق آلية التدريب المسبق ذات السياق الطويل المفتوحة المصدر Lighthouse Attention. بطاقة واحدة B200 تعالج 512 ألف كلمة بسرعة تقارب 17 مرة، وبتسريع من 98 ألف كلمة تصل إلى 1.4–1.7 مرة. تقوم هذه الآلية بفرز أولي ثم دقيق، من خلال تصفية أجزاء جوهرية عبر طبقات متعددة من الملخصات وتجميعها في نص قصير، ثم تُعطى لـ FlashAttention للمعالجة؛ منطق التصفية خارج النواة، مما يلغي الحاجة إلى كود أساسي إضافي وأهداف تدريب إضافية. لتجنب فقدان قدرة القراءة الحرفية بسبب قفز النموذج، يتم أثناء التدريب إكمال معظم العمل باستخدام وضع التسريع، ثم يُعاد مؤقتًا إلى الانتباه الكامل في النهاية. في تجربة تحتوي على 5.3 مليار معلمة و500 مليار رمز، انخفض الوقت بشكل ملحوظ، وكانت الأداء النهائي مماثلاً أو متفوقًا على الخطوط الأساسية التقليدية.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت