توصلت الدراسات إلى أن محسن النموذج الرأسي Muon يسبب في المراحل المبكرة من التدريب موت أكثر من ربع خلايا الشبكة العصبية MLP بشكل دائم، بسبب احتفاظه بالإشارة الضعيفة نتيجة للتعامد الذي يؤدي إلى "قوة الأقوى دائمًا". تقوم Aurora بفرض قيود متوازنة على تجانس التحديث والتعامد، من خلال التناوب بينهما لتحقيق كلاهما بشكل متزامن، مما يعزز بشكل ملحوظ كفاءة واستقرار التعلم. يمكن استبدال Aurora بدون ضبط معلمات Muon مباشرة؛ حيث أن نموذج 1.1B يستخدم حوالي 100 مليار وحدة رمزية فقط، ويصل إلى مستوى قريب من أداء Qwen3-1.7B المدرب باستخدام 36 تريليون وحدة رمزية على العديد من معايير فهم اللغة، وتزداد ميزته مع زيادة عرض MLP. الكود ونموذج التدريب المسبق 1.1B متاحان الآن كمصدر مفتوح.

MarsBitNews

2026-05-10 05:11:34

إنشاء الملخص قيد التقدم

وفقًا لمراقبة Beating Monitoring، اكتشفت شركة Tilde Research أن المُحسِّن المستخدم في النماذج الرائدة مثل DeepSeek V4 و Kimi K2.5 و GLM-5، وهو Muon، يحتوي على عيب خفي: حيث يتسبب في موت دائم لأكثر من ربع خلايا الشبكة العصبية MLP في المراحل المبكرة من التدريب. بناءً على ذلك، صمم الفريق مُحسِّنًا بديلًا يُسمى Aurora وفتح مصدره. نموذج بحجم 1.1 مليار معلمات فقط باستخدام حوالي 100 مليار رمز، تمكن من تحقيق أداء يقارب نماذج مثل Qwen3-1.7B المدربة على 36 تريليون رمز على معايير فهم اللغة مثل HellaSwag و Winogrande. المشكلة تكمن في خاصية رياضية في Muon عند معالجة مصفوفة أوزان MLP. في بداية التدريب، تصادف أن بعض الخلايا العصبية تتلقى إشارات تدرج ضعيفة. المُحسِّنات التقليدية مثل AdamW تقوم بتطبيع المعلمات تدريجيًا، مما يساوي هذه الاختلافات بشكل طبيعي؛ لكن خطوة التعامد في Muon تنقل الإشارة الضعيفة كما هي دون تغيير. الخلايا العصبية الضعيفة تستمر في تلقي تحديثات ضعيفة، وتصبح أكثر صمتًا، مما يؤدي إلى دائرة مفرغة من “القوي يزداد قوة”. بحلول الخطوة 500 من التدريب، يكون أكثر من ربع الخلايا العصبية قد ماتت فعليًا، مما يضيع سعة المعلمات بلا فائدة. كانت النسخة المطورة سابقًا، NorMuon، تقلل من المشكلة عن طريق فرض تساوي حجم التحديثات لكل صف، لكن ذلك أدى إلى تدمير التعامد في مصفوفة التحديثات (والذي يجعل كل خطوة تحديث أكثر كفاءة، وهو ميزة أساسية لـ Muon)، مما أدى إلى خسارة في دقة التحسين. أما Aurora، فتعتمد على قيود مشتركة تجمع بين “توزيع التحديثات بشكل متساوٍ” و"التعامد"، وتقوم بالتكرار بالتناوب لتحقيق كلا الهدفين: بحيث تضمن لكل خلية عصبية فرصة عادلة للتعلم، دون التضحية بدقة التحديث. النسخة غير المعدلة من Aurora تستهلك فقط 6% أكثر من Muon من حيث الحساب، ويمكن استبدالها مباشرة. في نتائج تحسينات modded-nanoGPT، حققت Aurora رقمًا قياسيًا جديدًا في 3175 خطوة. كما أن مزايا Aurora تتضخم مع زيادة عرض شبكة MLP، حيث كلما زاد معامل التوسيع، كانت التحسينات أوضح. الكود والنموذج المدرب مسبقًا بحجم 1.1 مليار متاحان كمصدر مفتوح.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GateSquareMayTradingShare
1.07M درجة الشعبية
#
BTCBackAbove80K
59.46M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
45.63K درجة الشعبية
#
JapanTokenizesGovernmentBonds
1.92M درجة الشعبية
#
#DailyPolymarketHotspot
873.37K درجة الشعبية

تثبيت

خريطة الموقع

Muon يتضور جوعًا بصمت بنسبة 25% من الخلايا العصبية: بعد إصلاح Aurora، كفاءة البيانات تتضاعف مئات المرات

المواضيع الرائجة

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

تثبيت