ME News رسالة، في 24 أبريل (UTC+8)، وفقًا لمراقبة Beating، كشف تقرير DeepSeek V4 التقني أن V4-Flash و V4-Pro تم تدريبهما مسبقًا على 32 تريليون و 33 تريليون رمز على التوالي، وهو ضعف حجم حوالي 15 تريليون رمز لـ V3. اعترف التقرير أنه أثناء التدريب "واجهت تحديات عدم استقرار كبيرة"، حيث تكررت قمم الخسارة (ارتفاع مفاجئ في خسارة التدريب)، ويعود السبب الجذري إلى القيم الشاذة في طبقة MoE، وتعمل آلية التوجيه نفسها على تفاقم هذه القيم الشاذة، ولا يمكن للتراجع البسيط حلها جذريًا. وجد DeepSeek حلين وطبقاهما في التدريب الفعلي: التوجيه التوقعي (Anticipatory Routing)، الذي يفصل حساب مؤشر التوجيه عن تحديث الشبكة الأساسية، ويتم تفعيله تلقائيًا فقط عند اكتشاف قمة خسارة، بتكلفة إضافية حوالي 20%؛ وتثبيت SwiGLU (SwiGLU Clamping)، الذي يثبت القيم النشطة في نطاق ثابت لقمع القيم الشاذة مباشرة. ذكر التقرير أن كلا الحلين فعالان، لكنه اعترف بأن "المبادئ الأساسية لم تُفهم بالكامل بعد". علقت الباحثة في Google DeepMind سوزان تشانغ (التي عملت سابقًا في Meta AI و OpenAI) بأن عدم الاستقرار الناتج عن مضاعفة بيانات التدريب "يفسر التأخير"، ووصفت الحلين بأنهما "ضمادات إسعافية"، مع الإشادة بشفافية DeepSeek التقنية. (المصدر: BlockBeats)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
gStocksTokenizedStocksLive
4.36M درجة الشعبية
#
StrongNonfarmPayrollsRekindleRateHikeFear
1.02M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
67.74K درجة الشعبية
#
PredictWorldCupShare20000U
183.55K درجة الشعبية
#
ETHBreaks1700
152.53M درجة الشعبية

مُثبت

خريطة الموقع

باحثون في DeepMind يفترضون سبب تأجيل DeepSeek V4: مضاعفة بيانات التدريب إلى 33 تريليون تسبب عدم استقرار شديد

المواضيع الرائجة

gStocksTokenizedStocksLive

StrongNonfarmPayrollsRekindleRateHikeFear

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

ETHBreaks1700

مُثبت