وفقًا لمراقبة Beating، كشف الدكتور ييفان زانغ من جامعة برينستون على منصة X عن تفاصيل رئيسية حول DeepSeek V4: إجمالي المعلمات 1.6 تيرابايت، V4-Lite 285 مليار؛ انتباه DSA2، دمج DSA/NSA، دعم 512 رأسًا، يدعم MQA المتناثر والنوافذ المتحركة؛ خبراء MoE384، تنشيط 6 منهم، باستخدام نواة Mega-Kernel المدمجة لـ MoE، والروابط العميقة مع بقايا Hyper-Connections. تم التدريب باستخدام محسن Muon، مع سياق 32 ألف، مرحلة RL بـ GRPO+KL، وتم توسيعه في النهاية إلى 1 مليون، والنموذج يعتمد على النصوص فقط. زانغ غير موجود في فريق DeepSeek، ولم ترد الجهات الرسمية.

BlockBeatNews

2026-04-22 14:06:01

إنشاء الملخص قيد التقدم

وفقًا لمراقبة بيترينغ، قام الدكتور ييفان Zhang من جامعة برينستون بتحديث التفاصيل التقنية لـ DeepSeek V4 على منصة X.
في 19 أبريل، أعلن عن “V4 الأسبوع المقبل” وذكر ثلاثة أسماء لمكونات الهيكل، وقدم الليلة جدول المعلمات الكامل، وكشف لأول مرة عن وجود نسخة خفيفة من V4 تسمى V4-Lite تحتوي على 285 مليار معلمة.

إجمالي حجم V4 هو 1.6 تيرابايت.
آلية الانتباه هي DSA2، والتي تجمع بين DSA (الانتباه المتناثر العميق) الذي استخدمته DeepSeek سابقًا في V3.2 وNSA (الانتباه المتناثر الأصلي) الذي اقترحته الورقة البحثية في بداية هذا العام، وهما نوعان من خطط الانتباه المتناثر، مع رأس-البعد 512، بالتزامن مع Sparse MQA وSWA (انتباه النافذة المنزلقة).
طبقة MoE تتكون من 384 خبيرًا، يتم تنشيط 6 منهم في كل مرة، باستخدام نواة موحدة لـ Mega-Kernel من نوع Fused MoE.
الاتصال المتبقي يستخدم Hyper-Connections.

التفاصيل التي تم الكشف عنها لأول مرة في مرحلة التدريب تشمل:
استخدام المحسن Muon (نوع من المحسن الذي يطبق تقنيات نيوتن-شولز للتطابق على تحديثات الزخم)،
طول سياق ما قبل التدريب 32 ألف،
وفي مرحلة التعلم المعزز، تم استخدام GRPO مع إضافة تصحيح KL divergence.
وفي النهاية، تم توسيع طول السياق إلى مليون.
النموذج يعتمد على النصوص فقط.

ييفان Zhang لا يشغل منصبًا في DeepSeek، ولم ترد شركة DeepSeek رسميًا على المعلومات المذكورة أعلاه.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
Gate13thAnniversaryLive
1.03M درجة الشعبية
#
WCTCTradingChallengeShare8MUSDT
781.67K درجة الشعبية
#
BitcoinBouncesBack
201.55K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
30.62K درجة الشعبية
#
USIranTalksProgress
786.53K درجة الشعبية

تثبيت

خريطة الموقع

ييفان تشانغ تكشف عن المواصفات التقنية الكاملة لـ DeepSeek V4: 1.6 تيرابايت من المعلمات، و384 خبير تنشيط لستة

المواضيع الرائجة

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

USIranTalksProgress

تثبيت