توقفوا عن التكديس الأعمى للقوة الحاسوبية! تشير الأبحاث إلى أن النماذج الكبيرة تصبح أكثر "جمودًا" مع التدريب، وحتى زيادة المعاملات لا تستطيع فعل شيء.

robot
إنشاء الملخص قيد التقدم
ME AI رسالة، بحسب مراقبة Beating، مع زيادة وقت التدريب، يفقد الذكاء الاصطناعي تدريجيًا قدرته على استيعاب المعرفة الجديدة (فقدان المرونة)، وفي النهاية يصبح أكثر صلابة مع التدريب. إذا لم يتم التغلب على فقدان المرونة، فلن تتمكن النماذج الكبيرة من التعلم المستمر بتكلفة منخفضة أبدًا، وسيتعين في كل مرة تحديث المعرفة إعادة تدريب جميع البيانات التاريخية والجديدة معًا، مما يستهلك قوة حوسبة هائلة. أثبتت أحدث الأبحاث لشركة Zyphra الناشئة في مجال الذكاء الاصطناعي لأول مرة أن زيادة حجم النموذج يمكن أن تؤخر التدهور، لكن العوائد الحدية تتناقص، ولا يمكن الاعتماد فقط على زيادة المعلمات لعلاج فقدان المرونة. يظهر الاستقراء أن نموذج 1B معلمة يصبح غبيًا بعد تدريب 1.8 تريليون توكن، بينما يظهر نموذج 7B بعد 9 تريليون. والأكثر ثورية هو أنه حتى بدون تبديل المهام، فقط من خلال تدريب النموذج على مجموعة بيانات مختلطة مستقرة، سيحدث فقدان المرونة أيضًا. يشير البحث إلى أن هناك ثلاثة أسباب مباشرة تجعل النماذج الكبيرة تصبح غبية: حجم المعلمات يزداد باستمرار مع التدريب، مما يعيق نقل التدرج تحت آلية تطبيع الطبقة (LayerNorm)؛ نوم واسع النطاق للخلايا العصبية في طبقة MLP "إضراب" (حتى أن بعض النماذج تدخل 95% من الخلايا العصبية في حالة سكون)؛ شلل رؤوس الانتباه (التركيز على أحرف فردية والانهيار) أو الانهيار (توزيع متساوٍ على السياق بأكمله). لمواجهة هذه السمات المرضية، تتضمن الحلول المحتملة الحد من تضخم المعلمات، وإجراء "إعادة ضبط عصبي" دوري للخلايا العصبية المضربة لإجبارها على التنشيط، وإدخال ضوضاء عشوائية في آلية الانتباه لتصحيح الانحراف. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت