ديب مايند تقول إن تأخير إصدار DeepSeek V4 نجم عن تضاعف بيانات التدريب إلى 33 تيرابايت مما أدى إلى استقرار ملحوظ، حيث يتم تدريب V4-Flash/Pro على 32 تيرابايت و33 تيرابايت من الرموز، وهو ضعف تقريبًا عن V3 الذي كان حوالي 15 تيرابايت. تداخل قيم غير طبيعية في طبقة MOE وآلية التوجيه أدى إلى ارتفاعات في الخسارة، ولا يمكن استعادة الحالة فقط عن طريق التراجع. لمواجهة ذلك، تم تطبيق تدابير التوجيه التوقعي وتثبيت Swiglu، وكلاهما فعال، لكن المبادئ الأساسية لم تُفهم تمامًا بعد.

CoinNetwork

2026-04-24 07:18:50

إنشاء الملخص قيد التقدم

موقع شبكة العملات المشفرة، الباحثة في ديب مايند سوزان Zhang تخمن أن سبب تأجيل إصدار DeepSeek V4 هو عدم الاستقرار الشديد الناتج عن مضاعفة بيانات التدريب إلى 33 تيرابايت. وفقًا لتقرير تقنية V4، تم تدريب V4-Flash وV4-Pro على التوالي على 32 تيرابايت و33 تيرابايت من الرموز، وهو ضعف تقريبًا عن حوالي 15 تيرابايت من الرموز في V3. يعترف التقرير بأن عملية التدريب واجهت تحديات استقرار ملحوظة، حيث تكررت ظاهرة ارتفاع مفاجئ في خسارة التدريب، ويعود السبب إلى قيم شاذة في طبقة MOE، كما أن آلية التوجيه (Routing) نفسها تزيد من تفاقم هذه القيم الشاذة، ولا يمكن حله ببساطة عن طريق التراجع. وجدت DeepSeek حلين وطبقتهم على التدريب الفعلي: التوجيه التنبئي (anticipatory routing)، الذي يفصل حساب مؤشر التوجيه عن تحديث الشبكة الأساسية، ويُشغل تلقائيًا فقط عند اكتشاف ارتفاع مفاجئ في الخسارة، مع تكلفة إضافية حوالي 20%، وتثبيت Swiglu، الذي يقيد قيم التنشيط ضمن نطاق ثابت لوقف القيم الشاذة مباشرة. ويذكر التقرير أن كلا الحلين فعالان، لكنه يعترف بأن المبادئ الأساسية لم تُفهم بشكل كامل بعد.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
WCTCTradingKingPK
277.02K درجة الشعبية
#
比特币Breaks79K
11.67M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
34.28K درجة الشعبية
#
CryptoMarketsRiseBroadly
86.7K درجة الشعبية
#
WHCADinnerShootingIncident
14.1K درجة الشعبية

تثبيت

خريطة الموقع

باحثو DeepMind يخمّنون سبب تأجيل DeepSeekV4: تضاعف بيانات التدريب إلى 33 تيرابايت تسبب في عدم استقرار شديد

المواضيع الرائجة

WCTCTradingKingPK

比特币Breaks79K

IsraelStrikesIranBTCPlunges

CryptoMarketsRiseBroadly

WHCADinnerShootingIncident

تثبيت