تحليل: محتوى TileKernels مفتوح المصدر يتوافق مع مواصفات بنية Yifan Zhang الإصدار الرابع

وفقًا للمراقبة التي أجرتها Dongcha Beating، فإن مكتبة النواة TileKernels المفتوحة المصدر من DeepSeek تتوافق بطرق متعددة مع مواصفات بنية V4 التي كشفت عنها ييفان Zhang سابقًا. ذكر Zhang أن الاتصالات المتبقية في V4 تستخدم Hyper-Connections. تتميز TileKernels المفتوحة المصدر بـ mHC (Hyper-Connections المقيدة بالمنحنى )، وهي نسخة محسنة من HC التي اقترحها فريق Byte Seed في عام 2024، والتي تعالج مشكلة تباين الإشارة التي واجهت أثناء التدريب على نطاق واسع باستخدام HC الأصلي. يعتبر mHC نوعًا من Hyper-Connections، حيث أن HC الأصلي لا يمكنه دعم التدريب على نطاق واسع بشكل مستقر؛ لذلك، من المحتمل أن يكون mHC هو ما يُستخدم فعليًا في V4. ذكر Zhang أن V4 يستخدم نواة Mega-Kernel من نوع MoE المدمجة لإدارة 384 تنشيط خبير عبر 6 طبقات MoE، بينما يتضمن وحدة MoE في TileKernels اختيار الخبراء Top-k، وتعيين الرمز إلى الخبير، وتوزيع وجمع الخبراء المدمجين. تحتوي TileKernels أيضًا على نواة Engram، وهي وحدة ذاكرة شرطية اقترحها ورقة بحثية من DeepSeek في وقت سابق من هذا العام، لكن Engram لم يُذكر في مواصفات V4 التي قدمها Zhang. تدعم المكتبة SM90 (Hopper ) و SM100 (Blackwell )، لكنها لا تدعم Huawei Ascend. سابقًا، أفادت صحيفة The Information أن V4 تم تدريبه على Blackwell، وأن DeepSeek قضت شهورًا في تكييف النموذج مع شرائح Huawei و Cambricon.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت