ييفان تشانغ يكشف المواصفات الفنية الكاملة لـ DeepSeek V4: 1.6 تريليون معلمة، 384 خبيرًا مع 6 نشطين

وفقًا للمراقبة التي أجرتها Dongcha Beating، قام طالب الدكتوراه في برينستون ييفان تشانغ بتحديث التفاصيل التقنية لـ DeepSeek V4 على X. لقد عرض معاينة لـ “V4 الأسبوع المقبل” في 19 أبريل وذكر ثلاثة أسماء لمكونات الهندسة المعمارية، وقدم جدول معلمات كامل الليلة، بالإضافة إلى الكشف لأول مرة عن وجود نسخة خفيفة الوزن، V4-Lite، التي تحتوي على 285 مليار معلمة. إجمالي المعلمات لـ V4 هو 1.6 تيرابايت. آلية الانتباه هي DSA2، التي تجمع بين نظامي انتباه نادرين: DSA (انتباه نادر عميق) المستخدم في V3.2 و NSA (انتباه نادر أصلي) المقترح في ورقة بحثية في وقت سابق من هذا العام. بعد البعد الرأسي هو 512، مع زوج من انتباه MQA النادر وSWA (انتباه النافذة المنزلقة). طبقة MoE تحتوي على إجمالي 384 خبيرًا، مع تنشيط 6 منهم في وقت واحد، باستخدام نواة MoE المجمعة Mega-Kernel. تتبع الاتصالات المتبقية Hyper-Connections. تشمل التفاصيل التي تم الكشف عنها لمرحلة التدريب: المُحسِّن المستخدم هو Muon (مُحسِّن بمستوى المصفوفة يطبق التماثل نيوتن-شولتز على تحديثات الزخم)، مع طول سياق ما قبل التدريب يبلغ 32 ألف، ومرحلة التعلم المعزز باستخدام GRPO مع تصحيح تباين KL مضاف. تم تمديد الطول النهائي للسياق إلى مليون. النموذج هو نص خالص. لا يحمل تشانغ منصبًا في DeepSeek، ولم ترد DeepSeek على المعلومات أعلاه.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت