باحثو DeepMind يخمّنون سبب تأجيل DeepSeekV4: تضاعف بيانات التدريب إلى 33 تيرابايت تسبب في عدم استقرار شديد

robot
إنشاء الملخص قيد التقدم

موقع شبكة العملات المشفرة، الباحثة في ديب مايند سوزان Zhang تخمن أن سبب تأجيل إصدار DeepSeek V4 هو عدم الاستقرار الشديد الناتج عن مضاعفة بيانات التدريب إلى 33 تيرابايت. وفقًا لتقرير تقنية V4، تم تدريب V4-Flash وV4-Pro على التوالي على 32 تيرابايت و33 تيرابايت من الرموز، وهو ضعف تقريبًا عن حوالي 15 تيرابايت من الرموز في V3. يعترف التقرير بأن عملية التدريب واجهت تحديات استقرار ملحوظة، حيث تكررت ظاهرة ارتفاع مفاجئ في خسارة التدريب، ويعود السبب إلى قيم شاذة في طبقة MOE، كما أن آلية التوجيه (Routing) نفسها تزيد من تفاقم هذه القيم الشاذة، ولا يمكن حله ببساطة عن طريق التراجع. وجدت DeepSeek حلين وطبقتهم على التدريب الفعلي: التوجيه التنبئي (anticipatory routing)، الذي يفصل حساب مؤشر التوجيه عن تحديث الشبكة الأساسية، ويُشغل تلقائيًا فقط عند اكتشاف ارتفاع مفاجئ في الخسارة، مع تكلفة إضافية حوالي 20%، وتثبيت Swiglu، الذي يقيد قيم التنشيط ضمن نطاق ثابت لوقف القيم الشاذة مباشرة. ويذكر التقرير أن كلا الحلين فعالان، لكنه يعترف بأن المبادئ الأساسية لم تُفهم بشكل كامل بعد.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت