فريق هه كاي مينغ ELF: نموذج الانتشار اللغوي أخيرًا تم تشغيله بنجاح

robot
إنشاء الملخص قيد التقدم

وفقًا لمراقبة Beating للقياس، أصدر فريق MIT بقيادة هيا كايمينج نموذج الانتشار اللغوي ELF (تدفقات اللغة المدمجة). لم يتبع النهج التقليدي لـ GPT في التنبؤ بـ “الرمز التالي” بشكل تلقائي، بل وضع توليد النص في مساحة التضمين المستمرة حتى الخطوة الأخيرة التي يتم فيها تحويله مرة أخرى إلى رموز منفصلة.

لقد أصبح نموذج الانتشار ناضجًا في توليد الصور، لكن تطبيقه على النص كان دائمًا غير مريح: الصورة طبيعةً إشارة مستمرة، بينما اللغة تتكون من رموز منفصلة. سابقًا، العديد من نماذج الانتشار المستمر للنص كانت إما تكرر إدخال إشراف على مستوى الرموز خلال مسار التوليد، أو تحتاج إلى مشفر فك تشفير مستقل إضافي. طريقة ELF أكثر نظافة: معظم الخطوات تتم في مساحة المتجهات المستمرة لإزالة الضوضاء، وفي النهاية يتم استخدام شبكة ذات أوزان مشتركة لإنهاء عملية التشفير إلى الرموز المنفصلة.

النتائج التجريبية كانت أيضًا مؤثرة. في تقييم توليد النصوص بدون شرط باستخدام OpenWebText، حقق نموذج ELF-B الذي يضم 105 مليون معلمة معدل توليد حوالي 24.1 في مقياس Gen. PPL باستخدام 32 خطوة عينة، متفوقًا على العديد من نماذج الانتشار اللغوية المستندة إلى الرموز والمنطق المستمر. والأهم من ذلك، أن ELF-B استخدم حوالي 45 مليار رمز تدريب فقط، بينما تتجاوز الطرق المقارنة عادةً 500 مليار رمز، مما يقلل من كمية الرموز المستخدمة في التدريب بمقدار كبير. هذا على الأقل يدل على أن مسار الانتشار المستمر لم يُحبط بسبب “طبيعة اللغة المنفصلة”، وأن المشاكل السابقة ربما كانت تتعلق بواجهات النمذجة وتصميم عمليات السحب.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت