باحث في DeepMind يعتقد أن سبب تأجيل DeepSeek V4 هو أن مضاعفة بيانات التدريب إلى 33 تيرابايت أدت إلى عدم استقرار شديد

وفقًا لمراقبة Beating، كشف تقرير تقنية DeepSeek V4 أن V4-Flash و V4-Pro تم تدريبهما مسبقًا على 32 تريليون و 33 تريليون وحدة رمزية على التوالي، وهو ضعف تقريبًا عن 15 تريليون وحدة رمزية في V3. يعترف التقرير بأن عملية التدريب واجهت “تحديات عدم استقرار ملحوظة”، حيث تكررت ارتفاعات مفاجئة في خسارة التدريب، ويعود السبب إلى قيم شاذة في طبقة MoE، كما أن آلية التوجيه نفسها تزيد من تفاقم هذه القيم الشاذة، ولا يمكن ح rollback بسيط القضاء عليها بشكل كامل.

وجدت DeepSeek حلين وتم تطبيقهما في التدريب الفعلي: التوجيه التنبئي (Anticipatory Routing)، الذي يفصل حساب مؤشر التوجيه عن تحديث الشبكة الأساسية، ويُشغل تلقائيًا فقط عند اكتشاف ارتفاع في الخسارة، مع تكلفة إضافية حوالي 20٪؛ وتثبيت SwiGLU (SwiGLU Clamping)، الذي يقيد قيم التنشيط ضمن نطاق ثابت لوقف القيم الشاذة مباشرة. يذكر التقرير أن كلا الحلين فعالان، لكنه يعترف بأن “المبادئ الأساسية لم تُفهم بشكل كامل بعد”.

علق الباحث في DeepMind جوجل، سوزان تشانغ (التي عملت سابقًا في Meta AI و OpenAI)، قائلة إن عدم الاستقرار الناتج عن مضاعفة بيانات التدريب “يفسر التأجيل”، ووصف هذين الحلين بـ “لاصق الجروح”، مع إبداء إعجابها بشفافية تقنية DeepSeek.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت