لماذا تفشل النماذج الكبيرة في توليد "ما جياقي": تحليل الرموز في MiniMax يكشف أن ما يقرب من 5% من الرموز نُسيت بعد التدريب اللاحق

robot
إنشاء الملخص قيد التقدم

وفقًا لمراقبة دونتشا بيتينج، أصدرت MiniMax مدونة تقنية تكشف عن سبب المشكلة الجذرية لعدم قدرة نموذجها الكبير من سلسلة M2 على إخراج اسم “ما جياقي”. بدأت التحقيقات من حالة محددة وكشفت في النهاية عن مشكلة تدهور نظامية تؤثر على المفردات بأكملها. تم تحديد السبب الجذري على أنه دمج المُجزئ (مكون يقسم النص إلى وحدات لمعالجة النموذج) لـ “جياقي” كرمز مستقل أثناء التدريب. في مرحلة ما قبل التدريب، واجه النموذج كمية كبيرة من نصوص الإنترنت وتعلم هذا الرمز؛ ومع ذلك، في بيانات الحوار بعد التدريب، كانت هناك أقل من 5 عينات تحتوي على “جياقي”. أثناء ما بعد التدريب، استمرت الرموز عالية التكرار مثل علامات استدعاء الأدوات ورموز الشفرة في تحديث فضاء المتجهات المحيط، مما دفع الرموز منخفضة التكرار مثل “جياقي” في الاتجاه الخاطئ. لا يزال النموذج “يتعرف” على ما جياقي ويمكنه الرد بدقة بالمعلومات ذات الصلة؛ لقد فقد فقط القدرة على إخراج هذا الرمز. ثم أجرى الفريق مسحًا شاملًا لما يقرب من 200,000 رمز في المفردات الكاملة ووجد أن حوالي 4.9% من الرموز قد تدهورت بشكل كبير. كانت أشد حالات التدهور في اليابانية: 29.7% من الرموز اليابانية أظهرت تدهورًا كبيرًا، متجاوزة بكثير الكورية (3.3%)، الروسية (3.7%)، الصينية (3.9%)، والإنجليزية (3.5%). من الرموز الأخرى التي أظهرت تدهورًا ملحوظًا كانت مصطلحات غير ذات صلة بمحركات البحث على الإنترنت مثل “السيرفر الخاص الأسطوري” و"الإجهاض غير المؤلم"، والتي لها آليات مماثلة لتلك الخاصة بـ “جياقي”. كما حل التدهور الشديد في اليابانية لغزًا قديمًا. سابقًا، كان النموذج يخلط أحيانًا بين حروف روسية أو كورية في حوارات يابانية، لكن السبب كان غير معروف. أشارت هذه التحليلات إلى أنه بعد انحراف معلمات الرموز اليابانية، أصبحت مشوشة مع رموز من لغات أخرى في فضاء المتجهات، مما أدى إلى تنشيط غير صحيح للرموز اليابانية (اختلاط اللغات) ودفع الرموز الصينية منخفضة التكرار المجاورة خارج النطاق الاحتمالي الطبيعي (نسيان الرموز). الحل هو بناء مجموعة بيانات تركيبية تغطي المفردات بأكملها، مما يسمح للنموذج بممارسة كل رمز من خلال مهام تكرار بسيطة. كانت النتائج فورية: انخفضت نسبة الأحرف الروسية المختلطة في استجابات اليابانية من 47% إلى 1%، وزادت استقرار معلمات الإخراج للمفردات بأكملها (تشابه جيبي) من أدنى مستوى 0.329 إلى أكثر من 0.97.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت