Muon يختفي بصمت "جائع" 25% من الخلايا العصبية: بعد إصلاح Aurora، كفاءة البيانات تتضاعف مئات المرات

robot
إنشاء الملخص قيد التقدم

وفقًا لمراقبة Beating، اكتشفت شركة Tilde Research أن المُحسِّن Muon المستخدم في النماذج الرائدة مثل DeepSeek V4 و Kimi K2.5 و GLM-5 يحتوي على عيب خفي: حيث يتسبب في موت أكثر من ربع خلايا الشبكة العصبية بشكل دائم في مراحل مبكرة من التدريب. بناءً على ذلك، صمم الفريق مُحسِّنًا بديلًا يُدعى Aurora وفتح مصدره. نموذج بحجم 1.1 مليار معلمة، باستخدام حوالي 100 مليار رمز فقط، حقق أداءً يقارب نماذج Qwen3-1.7B المدربة على 36 تريليون رمز على معايير فهم اللغة مثل HellaSwag و Winogrande.

تكمن المشكلة في خاصية رياضية في طريقة تعامل Muon مع مصفوفة أوزان الشبكة العصبية متعددة الطبقات. في بداية التدريب، تصادف أن بعض الخلايا استلمت إشارات تدرج ضعيفة. المُحسِّن التقليدي مثل AdamW يقوم بتطبيع التدرجات عبر المعلمات، مما يساوي الفوارق بشكل طبيعي؛ لكن خطوة التعامد في Muon تنقل الإشارة الضعيفة كما هي دون تغيير. الخلايا الضعيفة تستمر في تلقي تحديثات ضعيفة، وتصبح أكثر صمتًا، مما يؤدي إلى دائرة مفرغة من “القوي يزداد قوة”. بعد 500 خطوة تدريب، يكون أكثر من ربع الخلايا قد ماتت فعليًا، مما يضيع سعة المعلمات بلا فائدة.

نسخة NorMuon المطورة سابقًا حاولت التخفيف من المشكلة عبر فرض تساوي حجم التحديثات عبر الصفوف، لكن ذلك أدى إلى تدمير خاصية التعامد في المصفوفة (التي تجعل كل خطوة تحديث أكثر كفاءة، وهي ميزة أساسية لـ Muon)، مما أدى إلى خسارة في دقة التحسين. أما Aurora، فجعَلَ “توزيع التحديثات بشكل متساوٍ” و"التعامد" قيودًا مشتركة، واستخدمت تكرارات متبادلة لتحقيق كلا الهدفين: بحيث يضمن لكل خلية فرصة عادلة للتعلم، دون التضحية بدقة التحديث.

نسخة Aurora غير المعدلة من المعاملات تستهلك فقط 6% أكثر من Muon من حيث الحساب، ويمكن استبدالها مباشرة. في اختبارات تحسين أداء modded-nanoGPT، حققت Aurora رقمًا قياسيًا جديدًا بعد 3175 خطوة. كما أن مزايا Aurora تتزايد مع زيادة عرض الشبكة العصبية، حيث تزداد الفوائد مع ارتفاع معامل التوسيع.

تم فتح مصدر الكود والنموذج المدرب مسبقًا بحجم 1.1 مليار.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت