أظهرت الدراسات أن مُحسِّن Muon يتسبب في وفاة بعض خلايا الشبكة العصبية متعددة الطبقات (MLP) بشكل دائم في المراحل المبكرة من التدريب، بسبب احتفاظه بالتعامد الذي يضعف الإشارة. من خلال تقييد التحديثات بشكل متزامن مع الحفاظ على التعامد، واستخدام التناوب في التكرار لتحقيق توازن بين الاثنين، ينجح Aurora في تجنب الوفاة وتحسين الكفاءة. عند عدم ضبط المعاملات، يمكن استبدال Aurora بـ Muon مع زيادة في استهلاك الحساب بنسبة 6% فقط، وعلى نموذج بحجم 1.1 مليار، وصل الأداء إلى مستوى قريب من نموذج Qwen3-1.7B الذي تم تدريبه على حوالي 100 مليار وحدة رمزية و36 تيرافلوب؛ الكود والنموذج متاحان كمصدر مفتوح.

BlockBeatNews

2026-05-10 04:07:30

إنشاء الملخص قيد التقدم

وفقًا لمراقبة Beating، اكتشفت شركة Tilde Research أن المُحسِّن Muon المستخدم في النماذج الرائدة مثل DeepSeek V4 و Kimi K2.5 و GLM-5 يحتوي على عيب خفي: حيث يتسبب في موت أكثر من ربع خلايا الشبكة العصبية بشكل دائم في مراحل مبكرة من التدريب. بناءً على ذلك، صمم الفريق مُحسِّنًا بديلًا يُدعى Aurora وفتح مصدره. نموذج بحجم 1.1 مليار معلمة، باستخدام حوالي 100 مليار رمز فقط، حقق أداءً يقارب نماذج Qwen3-1.7B المدربة على 36 تريليون رمز على معايير فهم اللغة مثل HellaSwag و Winogrande.

تكمن المشكلة في خاصية رياضية في طريقة تعامل Muon مع مصفوفة أوزان الشبكة العصبية متعددة الطبقات. في بداية التدريب، تصادف أن بعض الخلايا استلمت إشارات تدرج ضعيفة. المُحسِّن التقليدي مثل AdamW يقوم بتطبيع التدرجات عبر المعلمات، مما يساوي الفوارق بشكل طبيعي؛ لكن خطوة التعامد في Muon تنقل الإشارة الضعيفة كما هي دون تغيير. الخلايا الضعيفة تستمر في تلقي تحديثات ضعيفة، وتصبح أكثر صمتًا، مما يؤدي إلى دائرة مفرغة من “القوي يزداد قوة”. بعد 500 خطوة تدريب، يكون أكثر من ربع الخلايا قد ماتت فعليًا، مما يضيع سعة المعلمات بلا فائدة.

نسخة NorMuon المطورة سابقًا حاولت التخفيف من المشكلة عبر فرض تساوي حجم التحديثات عبر الصفوف، لكن ذلك أدى إلى تدمير خاصية التعامد في المصفوفة (التي تجعل كل خطوة تحديث أكثر كفاءة، وهي ميزة أساسية لـ Muon)، مما أدى إلى خسارة في دقة التحسين. أما Aurora، فجعَلَ “توزيع التحديثات بشكل متساوٍ” و"التعامد" قيودًا مشتركة، واستخدمت تكرارات متبادلة لتحقيق كلا الهدفين: بحيث يضمن لكل خلية فرصة عادلة للتعلم، دون التضحية بدقة التحديث.

نسخة Aurora غير المعدلة من المعاملات تستهلك فقط 6% أكثر من Muon من حيث الحساب، ويمكن استبدالها مباشرة. في اختبارات تحسين أداء modded-nanoGPT، حققت Aurora رقمًا قياسيًا جديدًا بعد 3175 خطوة. كما أن مزايا Aurora تتزايد مع زيادة عرض الشبكة العصبية، حيث تزداد الفوائد مع ارتفاع معامل التوسيع.

تم فتح مصدر الكود والنموذج المدرب مسبقًا بحجم 1.1 مليار.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GateSquareMayTradingShare
1.06M درجة الشعبية
#
BTCBackAbove80K
59.45M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
45.63K درجة الشعبية
#
JapanTokenizesGovernmentBonds
1.91M درجة الشعبية
#
#DailyPolymarketHotspot
872.88K درجة الشعبية

تثبيت

خريطة الموقع

Muon يختفي بصمت "جائع" 25% من الخلايا العصبية: بعد إصلاح Aurora، كفاءة البيانات تتضاعف مئات المرات

المواضيع الرائجة

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

تثبيت