تحليل: المحتوى المفتوح المصدر لـ TileKernels يتطابق في عدة نقاط مع مواصفات بنية V4 التي كشف عنها سابقًا ييفان Zhang

robot
إنشاء الملخص قيد التقدم

وفقًا لمراقبة Beating، يوجد تطابقات متعددة بين مكتبة النوى المفتوحة المصدر TileKernels من DeepSeek والمواصفات التي كشف عنها سابقًا ييفان تشانغ لنظام V4.

قال تشانغ إن الاتصال المتبقي في V4 يستخدم Hyper-Connections. المكتبة المفتوحة TileKernels هي مكون mHC (Hyper-Connections المقيدة بالمصفوفة المنحنى)، وهو نسخة محسنة من HC التي اقترحها فريق Seed التابع لـ DeepSeek في عام 2024، والتي تتضمن قيودًا مزدوجة عشوائية على المصفوفة، وحل مشكلة تشتت الإشارة في التدريب على نطاق واسع.
يُعتبر mHC نوعًا من Hyper-Connections، حيث أن HC الأصلية لا تدعم التدريب المستقر على نطاق واسع، ويبدو أن V4 يستخدم فعليًا mHC.
قال تشانغ إن V4 يستخدم وحدة إدارة MoE Mega-Kernel المدمجة التي تدير 384 خبيرًا نشطًا في طبقة MoE التي تحتوي على 6 خبراء، وتشتمل وحدة MoE في TileKernels على اختيار الخبراء Top-k، وتحويل الرموز إلى خبراء، وتوزيع الخبراء ودمجهم.

كما يحتوي TileKernels على نواة Engram، وهو وحدة ذاكرة شرطية اقترحت في ورقة بحثية لـ DeepSeek في يناير من هذا العام، لكن لم يتم ذكر Engram في مواصفات V4 التي قدمها تشانغ.
يدعم المكتبة SM90 (Hopper) و SM100 (Blackwell)، ولا يدعم شرائح Huawei Ascend.
سبق أن أبلغت صحيفة The Information أن V4 تم تدريبه على Blackwell، وأن DeepSeek قضت عدة أشهر في تكييف النموذج مع شرائح Huawei و Cambrian.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت