Muon يتضور جوعًا بصمت بنسبة 25% من الخلايا العصبية: بعد إصلاح Aurora، كفاءة البيانات تتضاعف مئات المرات

robot
إنشاء الملخص قيد التقدم

وفقًا لمراقبة Beating Monitoring، اكتشفت شركة Tilde Research أن المُحسِّن المستخدم في النماذج الرائدة مثل DeepSeek V4 و Kimi K2.5 و GLM-5، وهو Muon، يحتوي على عيب خفي: حيث يتسبب في موت دائم لأكثر من ربع خلايا الشبكة العصبية MLP في المراحل المبكرة من التدريب. بناءً على ذلك، صمم الفريق مُحسِّنًا بديلًا يُسمى Aurora وفتح مصدره. نموذج بحجم 1.1 مليار معلمات فقط باستخدام حوالي 100 مليار رمز، تمكن من تحقيق أداء يقارب نماذج مثل Qwen3-1.7B المدربة على 36 تريليون رمز على معايير فهم اللغة مثل HellaSwag و Winogrande. المشكلة تكمن في خاصية رياضية في Muon عند معالجة مصفوفة أوزان MLP. في بداية التدريب، تصادف أن بعض الخلايا العصبية تتلقى إشارات تدرج ضعيفة. المُحسِّنات التقليدية مثل AdamW تقوم بتطبيع المعلمات تدريجيًا، مما يساوي هذه الاختلافات بشكل طبيعي؛ لكن خطوة التعامد في Muon تنقل الإشارة الضعيفة كما هي دون تغيير. الخلايا العصبية الضعيفة تستمر في تلقي تحديثات ضعيفة، وتصبح أكثر صمتًا، مما يؤدي إلى دائرة مفرغة من “القوي يزداد قوة”. بحلول الخطوة 500 من التدريب، يكون أكثر من ربع الخلايا العصبية قد ماتت فعليًا، مما يضيع سعة المعلمات بلا فائدة. كانت النسخة المطورة سابقًا، NorMuon، تقلل من المشكلة عن طريق فرض تساوي حجم التحديثات لكل صف، لكن ذلك أدى إلى تدمير التعامد في مصفوفة التحديثات (والذي يجعل كل خطوة تحديث أكثر كفاءة، وهو ميزة أساسية لـ Muon)، مما أدى إلى خسارة في دقة التحسين. أما Aurora، فتعتمد على قيود مشتركة تجمع بين “توزيع التحديثات بشكل متساوٍ” و"التعامد"، وتقوم بالتكرار بالتناوب لتحقيق كلا الهدفين: بحيث تضمن لكل خلية عصبية فرصة عادلة للتعلم، دون التضحية بدقة التحديث. النسخة غير المعدلة من Aurora تستهلك فقط 6% أكثر من Muon من حيث الحساب، ويمكن استبدالها مباشرة. في نتائج تحسينات modded-nanoGPT، حققت Aurora رقمًا قياسيًا جديدًا في 3175 خطوة. كما أن مزايا Aurora تتضخم مع زيادة عرض شبكة MLP، حيث كلما زاد معامل التوسيع، كانت التحسينات أوضح. الكود والنموذج المدرب مسبقًا بحجم 1.1 مليار متاحان كمصدر مفتوح.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت