باحث في DeepMind يتكهن بتأخير إصدار DeepSeek V4: تضاعف بيانات التدريب إلى 33 تريليون يسبب عدم استقرار شديد

robot
إنشاء الملخص قيد التقدم

وفقًا للمراقبة التي أجرتها Dongcha Beating، يكشف التقرير الفني لـ DeepSeek V4 أن V4-Flash و V4-Pro تم تدريبهما مسبقًا على 32 تريليون و33 تريليون وحدة رمزية على التوالي، مما يضاعف تقريبًا الـ 15 تريليون وحدة رمزية المستخدمة في V3. يعترف التقرير بأن عملية التدريب واجهت “تحديات عدم استقرار كبيرة”، مع تكرار حدوث ارتفاعات مفاجئة في الخسارة (ارتفاعات مفاجئة في خسارة التدريب) التي تعزى إلى حالات استثنائية في طبقة MoE، وأن آلية التوجيه نفسها زادت من تفاقم هذه الحالات، مما جعل التراجع البسيط غير فعال. حددت DeepSeek حلين تم تطبيقهما في التدريب الفعلي: التوجيه التنبئي، الذي يفصل حسابات مؤشر التوجيه عن تحديثات الشبكة الأساسية ويُشغل تلقائيًا فقط عند اكتشاف ارتفاع في الخسارة، مما يضيف عبءًا إضافيًا يقارب 20٪؛ و تثبيت SwiGLU، الذي يقيد قيم التنشيط ضمن نطاق ثابت لوقف الحالات الاستثنائية مباشرة. يذكر التقرير أن كلا الطريقتين فعالتان، لكنه يعترف بأن “المبادئ الأساسية لم تُفهم بعد بشكل كامل”. علقت الباحثة في Google DeepMind سوزان تشانغ، التي عملت سابقًا في Meta AI و OpenAI، بأن عدم الاستقرار الناتج عن مضاعفة بيانات التدريب “يفسر التأخير”، ووصفت هاتين الحلولين بـ “لاصقات”، مع تأكيدها أيضًا على الشفافية التقنية لـ DeepSeek.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت