باحثون في DeepMind يفترضون سبب تأجيل DeepSeek V4: مضاعفة بيانات التدريب إلى 33 تريليون تسبب عدم استقرار شديد

robot
إنشاء الملخص قيد التقدم
ME News رسالة، في 24 أبريل (UTC+8)، وفقًا لمراقبة Beating، كشف تقرير DeepSeek V4 التقني أن V4-Flash و V4-Pro تم تدريبهما مسبقًا على 32 تريليون و 33 تريليون رمز على التوالي، وهو ضعف حجم حوالي 15 تريليون رمز لـ V3. اعترف التقرير أنه أثناء التدريب "واجهت تحديات عدم استقرار كبيرة"، حيث تكررت قمم الخسارة (ارتفاع مفاجئ في خسارة التدريب)، ويعود السبب الجذري إلى القيم الشاذة في طبقة MoE، وتعمل آلية التوجيه نفسها على تفاقم هذه القيم الشاذة، ولا يمكن للتراجع البسيط حلها جذريًا. وجد DeepSeek حلين وطبقاهما في التدريب الفعلي: التوجيه التوقعي (Anticipatory Routing)، الذي يفصل حساب مؤشر التوجيه عن تحديث الشبكة الأساسية، ويتم تفعيله تلقائيًا فقط عند اكتشاف قمة خسارة، بتكلفة إضافية حوالي 20%؛ وتثبيت SwiGLU (SwiGLU Clamping)، الذي يثبت القيم النشطة في نطاق ثابت لقمع القيم الشاذة مباشرة. ذكر التقرير أن كلا الحلين فعالان، لكنه اعترف بأن "المبادئ الأساسية لم تُفهم بالكامل بعد". علقت الباحثة في Google DeepMind سوزان تشانغ (التي عملت سابقًا في Meta AI و OpenAI) بأن عدم الاستقرار الناتج عن مضاعفة بيانات التدريب "يفسر التأخير"، ووصفت الحلين بأنهما "ضمادات إسعافية"، مع الإشادة بشفافية DeepSeek التقنية. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت