MiniMax:تحليل السبب الجذري لعدم قدرة النموذج الكبير على إخراج اسم الإنسان «ما جيا تشي»

robot
إنشاء الملخص قيد التقدم

币界网消息,MiniMax发布技术博客,披露其m2系列大模型无法输出人名「马嘉祺」的根因排查过程。
تقرير من شبكة العملات، أصدرت MiniMax مدونة تقنية تكشف عن عملية استكشاف سبب عدم قدرة النموذج الكبير من سلسلة m2 على إخراج اسم الشخص “ما جيا تشي”.

排查从一个个例出发,最终揭示了一个波及整个词表的系统性退化问题。
بدأت عملية الاستكشاف بحالة واحدة، وكشفت في النهاية عن مشكلة تدهور منهجي يؤثر على كامل قائمة المفردات.

根因是分词器在训练时将「嘉祺」合并成了一个独立token。
السبب الجذري هو أن أداة التجزئة دمجت “جيا تشي” كرمز مستقل أثناء التدريب.

预训练阶段模型见过大量互联网文本,学会了这个token但后训练的对话数据中,包含「嘉祺」的样本不到5条。
خلال مرحلة التدريب المسبق، شاهد النموذج كمية كبيرة من نصوص الإنترنت، وتعلم هذا الرمز، لكن في بيانات الحوار اللاحقة، كانت عينات “جيا تشي” أقل من خمس حالات.

后训练过程中,tool_call标记、代码符号等高频token持续更新周围的向量空间,把「嘉祺」这类低频token挤到了错误的方向。
خلال عملية التدريب اللاحقة، استمرت تحديثات فضاء المتجهات المحيطة برموز عالية التردد مثل علامات tool_call والرموز البرمجية، مما دفع رموز منخفضة التردد مثل “جيا تشي” إلى الاتجاه الخاطئ.

模型仍然「认识」马嘉祺,能准确回答相关信息,丢失的只是输出这个token的能力。
لا زال النموذج “يعرف” ما جيا تشي، ويستطيع الإجابة بدقة على المعلومات ذات الصلة، لكن القدرة على إخراج هذا الرمز فقدت.

团队随后对约20万token的完整词表做了全量扫描,发现约4.9%的token发生了显著退化。
بعد ذلك، قام الفريق بفحص كامل لقائمة المفردات التي تحتوي على حوالي 200,000 رمز، ووجد أن حوالي 4.9% من الرموز تعرضت لتدهور ملحوظ.

退化最严重的是日语:29.7%的日语token显著退化,远超韩语3.3%、俄语3.7%、中文3.9%和英文3.5%。
وكانت اللغة اليابانية الأكثر تضررًا، حيث تدهور حوالي 29.7% من الرموز اليابانية بشكل ملحوظ، متجاوزة بكثير الكورية 3.3%، والروسية 3.7%، والصينية 3.9%، والإنجليزية 3.5%.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت