مضاعف DeepSeek V4 الرموز مقابل V3، يواجه عدم استقرار من خارجيات MoE وارتفاعات ناتجة عن التوجيه؛ حلان—توجيه استباقي (مُحفز على خسارة، ~20% من الحوسبة الإضافية) و تثبيت SwiGLU (تحديد حد التنشيط)—يعالجان المشاكل رغم أن المبادئ لا تزال غير واضحة. أطلقت عليها Zhang اسم لُصقات مؤقتة لكنها شفافة.الملخص: يلخص هذا التقرير تحديات تدريب DeepSeek V4 واستراتيجيات التخفيف. تم تدريب V4-Flash و V4-Pro مسبقًا على 32 تريليون و33 تريليون رمز، تقريبًا مضاعفة لـ V3 التي كانت حوالي 15 تريليون، وواجهت عدم استقرار كبير من خارجيات في عملية توجيه MoE، مع ارتفاعات في الخسارة وفشل في التراجع. التوجيه الاستباقي يفصل تحديثات مؤشر التوجيه عن تدريب العمود الفقري ويعمل تلقائيًا عند ارتفاعات الخسارة، مع حوالي 20% من الحوسبة الإضافية؛ تثبيت SwiGLU يقيد التنشيطات ضمن نطاق ثابت لخفض الخارجيات. كانت الطريقتان فعالتين، رغم أن المبادئ الأساسية لا تزال غير مفهومة تمامًا. وصفت سوزان Zhang من Google DeepMind التغييرات بأنها لُصقات عملية مع مدح شفافية المشروع.

AirdropBlackHole

2026-04-27 02:14:01

إنشاء الملخص قيد التقدم

وفقًا للمراقبة التي أجرتها Dongcha Beating، يكشف التقرير الفني لـ DeepSeek V4 أن V4-Flash و V4-Pro تم تدريبهما مسبقًا على 32 تريليون و33 تريليون وحدة رمزية على التوالي، مما يضاعف تقريبًا الـ 15 تريليون وحدة رمزية المستخدمة في V3. يعترف التقرير بأن عملية التدريب واجهت “تحديات عدم استقرار كبيرة”، مع تكرار حدوث ارتفاعات مفاجئة في الخسارة (ارتفاعات مفاجئة في خسارة التدريب) التي تعزى إلى حالات استثنائية في طبقة MoE، وأن آلية التوجيه نفسها زادت من تفاقم هذه الحالات، مما جعل التراجع البسيط غير فعال. حددت DeepSeek حلين تم تطبيقهما في التدريب الفعلي: التوجيه التنبئي، الذي يفصل حسابات مؤشر التوجيه عن تحديثات الشبكة الأساسية ويُشغل تلقائيًا فقط عند اكتشاف ارتفاع في الخسارة، مما يضيف عبءًا إضافيًا يقارب 20٪؛ و تثبيت SwiGLU، الذي يقيد قيم التنشيط ضمن نطاق ثابت لوقف الحالات الاستثنائية مباشرة. يذكر التقرير أن كلا الطريقتين فعالتان، لكنه يعترف بأن “المبادئ الأساسية لم تُفهم بعد بشكل كامل”. علقت الباحثة في Google DeepMind سوزان تشانغ، التي عملت سابقًا في Meta AI و OpenAI، بأن عدم الاستقرار الناتج عن مضاعفة بيانات التدريب “يفسر التأخير”، ووصفت هاتين الحلولين بـ “لاصقات”، مع تأكيدها أيضًا على الشفافية التقنية لـ DeepSeek.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
WCTCTradingKingPK
282.15K درجة الشعبية
#
比特币Breaks79K
11.68M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
34.3K درجة الشعبية
#
CryptoMarketsRiseBroadly
90.1K درجة الشعبية
#
WHCADinnerShootingIncident
15.83K درجة الشعبية

تثبيت

خريطة الموقع

باحث في DeepMind يتكهن بتأخير إصدار DeepSeek V4: تضاعف بيانات التدريب إلى 33 تريليون يسبب عدم استقرار شديد

المواضيع الرائجة

WCTCTradingKingPK

比特币Breaks79K

IsraelStrikesIranBTCPlunges

CryptoMarketsRiseBroadly

WHCADinnerShootingIncident

تثبيت