وفقًا للمراقبة التي أجرتها Dongcha Beating، قام طالب الدكتوراه في برينستون ييفان تشانغ بتحديث التفاصيل التقنية لـ DeepSeek V4 على X. لقد عرض معاينة لـ “V4 الأسبوع المقبل” في 19 أبريل وذكر ثلاثة أسماء لمكونات الهندسة المعمارية، وقدم جدول معلمات كامل الليلة، بالإضافة إلى الكشف لأول مرة عن وجود نسخة خفيفة الوزن، V4-Lite، التي تحتوي على 285 مليار معلمة. إجمالي المعلمات لـ V4 هو 1.6 تيرابايت. آلية الانتباه هي DSA2، التي تجمع بين نظامي انتباه نادرين: DSA (انتباه نادر عميق) المستخدم في V3.2 و NSA (انتباه نادر أصلي) المقترح في ورقة بحثية في وقت سابق من هذا العام. بعد البعد الرأسي هو 512، مع زوج من انتباه MQA النادر وSWA (انتباه النافذة المنزلقة). طبقة MoE تحتوي على إجمالي 384 خبيرًا، مع تنشيط 6 منهم في وقت واحد، باستخدام نواة MoE المجمعة Mega-Kernel. تتبع الاتصالات المتبقية Hyper-Connections. تشمل التفاصيل التي تم الكشف عنها لمرحلة التدريب: المُحسِّن المستخدم هو Muon (مُحسِّن بمستوى المصفوفة يطبق التماثل نيوتن-شولتز على تحديثات الزخم)، مع طول سياق ما قبل التدريب يبلغ 32 ألف، ومرحلة التعلم المعزز باستخدام GRPO مع تصحيح تباين KL مضاف. تم تمديد الطول النهائي للسياق إلى مليون. النموذج هو نص خالص. لا يحمل تشانغ منصبًا في DeepSeek، ولم ترد DeepSeek على المعلومات أعلاه.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
Gate13thAnniversaryLive
1.16M درجة الشعبية
#
WCTCTradingChallengeShare8MUSDT
781.94K درجة الشعبية
#
BitcoinBouncesBack
201.77K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
30.62K درجة الشعبية
#
USIranTalksProgress
786.74K درجة الشعبية

تثبيت

خريطة الموقع

ييفان تشانغ يكشف المواصفات الفنية الكاملة لـ DeepSeek V4: 1.6 تريليون معلمة، 384 خبيرًا مع 6 نشطين

المواضيع الرائجة

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

USIranTalksProgress

تثبيت