ملخص: فشل نموذج M2 في إخراج 'Ma Jiaqi' لأن المعجم دمج 'Jiaqi' في رمز خلال التدريب؛ أدى نقص البيانات بعد التدريب إلى انحراف الرموز، خاصة في اليابانية. إصلاح إعادة التدريب الاصطناعي أصلح الانحراف وأعاد الاستقرار.ملخص: يلخص هذا المقال تحقيقًا في سبب فشل نماذج MiniMax الكبيرة من طراز M2 في إنتاج الرمز 'Ma Jiaqi'. السبب الجذري كان دمج الرموز أثناء التدريب، بالإضافة إلى ندرة البيانات بعد التدريب التي أدت إلى انحراف الرموز وخلط اللغات، خاصة في اليابانية. أظهر مسح شامل لما يقرب من 200,000 رمز تدهورًا واسعًا، وكانت اليابانية الأكثر تضررًا. الحل كان إنشاء مجموعة بيانات تدريب اصطناعية بكامل المفردات بحيث يمكن ممارسة كل رمز. بعد إعادة التدريب، انخفض التلوث بين اللغات بشكل حاد (انخفضت الأحرف الروسية في الردود اليابانية من 47% إلى 1%)، وارتفعت استقرار مساحة المتجهات للمفردات (تشابه جيوبسيون) من 0.329 إلى أكثر من 0.97.

AirdropBlackHole

2026-05-09 09:11:17

إنشاء الملخص قيد التقدم

وفقًا لمراقبة دونتشا بيتينج، أصدرت MiniMax مدونة تقنية تكشف عن سبب المشكلة الجذرية لعدم قدرة نموذجها الكبير من سلسلة M2 على إخراج اسم “ما جياقي”. بدأت التحقيقات من حالة محددة وكشفت في النهاية عن مشكلة تدهور نظامية تؤثر على المفردات بأكملها. تم تحديد السبب الجذري على أنه دمج المُجزئ (مكون يقسم النص إلى وحدات لمعالجة النموذج) لـ “جياقي” كرمز مستقل أثناء التدريب. في مرحلة ما قبل التدريب، واجه النموذج كمية كبيرة من نصوص الإنترنت وتعلم هذا الرمز؛ ومع ذلك، في بيانات الحوار بعد التدريب، كانت هناك أقل من 5 عينات تحتوي على “جياقي”. أثناء ما بعد التدريب، استمرت الرموز عالية التكرار مثل علامات استدعاء الأدوات ورموز الشفرة في تحديث فضاء المتجهات المحيط، مما دفع الرموز منخفضة التكرار مثل “جياقي” في الاتجاه الخاطئ. لا يزال النموذج “يتعرف” على ما جياقي ويمكنه الرد بدقة بالمعلومات ذات الصلة؛ لقد فقد فقط القدرة على إخراج هذا الرمز. ثم أجرى الفريق مسحًا شاملًا لما يقرب من 200,000 رمز في المفردات الكاملة ووجد أن حوالي 4.9% من الرموز قد تدهورت بشكل كبير. كانت أشد حالات التدهور في اليابانية: 29.7% من الرموز اليابانية أظهرت تدهورًا كبيرًا، متجاوزة بكثير الكورية (3.3%)، الروسية (3.7%)، الصينية (3.9%)، والإنجليزية (3.5%). من الرموز الأخرى التي أظهرت تدهورًا ملحوظًا كانت مصطلحات غير ذات صلة بمحركات البحث على الإنترنت مثل “السيرفر الخاص الأسطوري” و"الإجهاض غير المؤلم"، والتي لها آليات مماثلة لتلك الخاصة بـ “جياقي”. كما حل التدهور الشديد في اليابانية لغزًا قديمًا. سابقًا، كان النموذج يخلط أحيانًا بين حروف روسية أو كورية في حوارات يابانية، لكن السبب كان غير معروف. أشارت هذه التحليلات إلى أنه بعد انحراف معلمات الرموز اليابانية، أصبحت مشوشة مع رموز من لغات أخرى في فضاء المتجهات، مما أدى إلى تنشيط غير صحيح للرموز اليابانية (اختلاط اللغات) ودفع الرموز الصينية منخفضة التكرار المجاورة خارج النطاق الاحتمالي الطبيعي (نسيان الرموز). الحل هو بناء مجموعة بيانات تركيبية تغطي المفردات بأكملها، مما يسمح للنموذج بممارسة كل رمز من خلال مهام تكرار بسيطة. كانت النتائج فورية: انخفضت نسبة الأحرف الروسية المختلطة في استجابات اليابانية من 47% إلى 1%، وزادت استقرار معلمات الإخراج للمفردات بأكملها (تشابه جيبي) من أدنى مستوى 0.329 إلى أكثر من 0.97.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GateSquareMayTradingShare
953.73K درجة الشعبية
#
BTCBackAbove80K
59.43M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
45.4K درجة الشعبية
#
JapanTokenizesGovernmentBonds
1.89M درجة الشعبية
#
#DailyPolymarketHotspot
863.63K درجة الشعبية

تثبيت

خريطة الموقع

لماذا تفشل النماذج الكبيرة في توليد "ما جياقي": تحليل الرموز في MiniMax يكشف أن ما يقرب من 5% من الرموز نُسيت بعد التدريب اللاحق

المواضيع الرائجة

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

تثبيت