انتباه المنارة هذه الفكرة ذكية جدًا، تبدأ بالتصنيف الأولي ثم الحساب الدقيق، تقطع النص الطويل إلى مقاطع قصيرة تغذيها إلى FlashAttention، على بطاقة واحدة B200 يمكن أن يكون 512K أسرع بمقدار 17 مرة، في نهاية التدريب تعود إلى الانتباه الكامل لمنع القفز على القراءة، أداء نموذج 5.3 مليار لا يتأثر، وأخيرًا لم يعد من الضروري القتال مع نواة الأساس لتحسين السياق الطويل

شاهد النسخة الأصلية
المحتوى الأصلي لم يعد مرئيًا
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت