العقود الآجلة
وصول إلى مئات العقود الدائمة
CFD
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
Pre-IPOs
افتح الوصول الكامل إلى الاكتتابات العامة للأسهم العالمية
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
عروض ترويجية
AI
Gate AI
شريكك الذكي الشامل في الذكاء الاصطناعي
Gate AI Bot
استخدم Gate AI مباشرة في تطبيقك الاجتماعي
GateClaw
Gate الأزرق، جاهز للاستخدام
Gate for AI Agent
البنية التحتية للذكاء الاصطناعي، Gate MCP، Skills و CLI
Gate Skills Hub
أكثر من 10 آلاف مهارة
من المكتب إلى التداول، مكتبة المهارات الشاملة تجعل الذكاء الاصطناعي أكثر فعالية
GateRouter
ختر بذكاء من أكثر من 40 نموذج ذكاء اصطناعي، بدون أي رسوم إضافية 0%
Muon يختفي بصمت "جائع" 25% من الخلايا العصبية: بعد إصلاح Aurora، كفاءة البيانات تتضاعف مئات المرات
وفقًا لمراقبة Beating، اكتشفت شركة Tilde Research أن المُحسِّن Muon المستخدم في النماذج الرائدة مثل DeepSeek V4 و Kimi K2.5 و GLM-5 يحتوي على عيب خفي: حيث يتسبب في موت أكثر من ربع خلايا الشبكة العصبية بشكل دائم في مراحل مبكرة من التدريب. بناءً على ذلك، صمم الفريق مُحسِّنًا بديلًا يُدعى Aurora وفتح مصدره. نموذج بحجم 1.1 مليار معلمة، باستخدام حوالي 100 مليار رمز فقط، حقق أداءً يقارب نماذج Qwen3-1.7B المدربة على 36 تريليون رمز على معايير فهم اللغة مثل HellaSwag و Winogrande.
تكمن المشكلة في خاصية رياضية في طريقة تعامل Muon مع مصفوفة أوزان الشبكة العصبية متعددة الطبقات. في بداية التدريب، تصادف أن بعض الخلايا استلمت إشارات تدرج ضعيفة. المُحسِّن التقليدي مثل AdamW يقوم بتطبيع التدرجات عبر المعلمات، مما يساوي الفوارق بشكل طبيعي؛ لكن خطوة التعامد في Muon تنقل الإشارة الضعيفة كما هي دون تغيير. الخلايا الضعيفة تستمر في تلقي تحديثات ضعيفة، وتصبح أكثر صمتًا، مما يؤدي إلى دائرة مفرغة من “القوي يزداد قوة”. بعد 500 خطوة تدريب، يكون أكثر من ربع الخلايا قد ماتت فعليًا، مما يضيع سعة المعلمات بلا فائدة.
نسخة NorMuon المطورة سابقًا حاولت التخفيف من المشكلة عبر فرض تساوي حجم التحديثات عبر الصفوف، لكن ذلك أدى إلى تدمير خاصية التعامد في المصفوفة (التي تجعل كل خطوة تحديث أكثر كفاءة، وهي ميزة أساسية لـ Muon)، مما أدى إلى خسارة في دقة التحسين. أما Aurora، فجعَلَ “توزيع التحديثات بشكل متساوٍ” و"التعامد" قيودًا مشتركة، واستخدمت تكرارات متبادلة لتحقيق كلا الهدفين: بحيث يضمن لكل خلية فرصة عادلة للتعلم، دون التضحية بدقة التحديث.
نسخة Aurora غير المعدلة من المعاملات تستهلك فقط 6% أكثر من Muon من حيث الحساب، ويمكن استبدالها مباشرة. في اختبارات تحسين أداء modded-nanoGPT، حققت Aurora رقمًا قياسيًا جديدًا بعد 3175 خطوة. كما أن مزايا Aurora تتزايد مع زيادة عرض الشبكة العصبية، حيث تزداد الفوائد مع ارتفاع معامل التوسيع.
تم فتح مصدر الكود والنموذج المدرب مسبقًا بحجم 1.1 مليار.