باحثو معهد ماساتشوستس للتكنولوجيا يكشفون عن آلية التراكب القوي لنماذج اللغة الكبيرة: مضاعفة العرض يقلل الأخطاء تقريبًا إلى النصف

robot
إنشاء الملخص قيد التقدم

AIMPACT رسالة، في 3 مايو (بتوقيت UTC+8)، كشف باحثو MIT عن آلية أداء النماذج اللغوية الكبيرة مع التوسع الموثوق به في الحجم، لأول مرة تقدم إثباتًا تجريبيًا لظاهرة “التراكب”. وجدت الدراسة أن نماذج اللغة الكبيرة تتجاوز قيود الأبعاد من خلال تخزين مفاهيم متعددة في نفس البعد، مما يُعرف بـ"التراكب القوي" الذي يمكن النموذج من تمثيل جميع المفاهيم في وقت واحد، ويأتي الخطأ من الضوضاء الناتجة عن التداخل. استخدم الفريق نماذج مبسطة من أنثروبيك بالإضافة إلى نماذج مفتوحة المصدر مثل OPT وGPT-2 وQwen2.5 وPythia للتحقق من ذلك: عند مضاعفة عرض النموذج، يقل الخطأ تقريبًا إلى النصف، ويصل معامل التوسع إلى 0.91، وهو قريب من القيمة النظرية 1.
وجاءت الدراسة للإجابة على سؤالين رئيسيين: أن التوسع سيتوقف عند مطابقة عرض النموذج لحجم المفردات؛ وأن توزيع تكرار الكلمات المسطح في المهام اللغوية الطبيعية يحد من تسريع الفضاء، لكن تصميم الهيكل الذي يشجع على التراكب يمكن أن يحقق أداءً أفضل بنفس الحجم.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت