على منصة X، كشف الطالب بجامعة برينستون، زانغ، عن النقاط الرئيسية لـ DeepSeek V4: يحتوي كل من V4 و V4-Lite على 285 مليار و 1.6 تريليون معلمة على التوالي، ويستخدمان انتباه نادر DSA2 (DSA+NSA)، وhead-dim512، وSparse MQA وSWA، وخبراء MoE 384، ينشطون 6 في كل مرة، مع دمج نواة مدمجة وHyper-Connections. يستخدم المُحسِّن Muon للتدريب، مع سياق يبلغ حوالي 32 ألف، وفي مرحلة RL يتم تصحيح GRPO+KL، مع توسيع السياق النهائي إلى 1 مليون. المدخل هو نص خام فقط؛ زانغ ليس موظفًا في DeepSeek، ولم ترد الشركة رسميًا.

MeNews

2026-04-22 16:20:18

إنشاء الملخص قيد التقدم

معلومات أخبار ME، في 22 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة Beating، قام طالب الدكتوراه في برينستون ييفان تشانغ بتحديث التفاصيل التقنية لـ DeepSeek V4 على منصة X. لقد أعلن في 19 أبريل عن إصدار “V4 الأسبوع المقبل” وذكر ثلاثة أسماء لمكونات الهيكل، وأعطى الليلة جدول المعلمات الكامل، وكشف لأول مرة عن وجود نسخة خفيفة من V4 تسمى V4-Lite تحتوي على 285 مليار معلمة. إجمالي حجم V4 هو 1.6 تيرابايت. آلية الانتباه هي DSA2، والتي تجمع بين نوعي الانتباه المتن sparse attention المستخدمين سابقًا في V3.2، وهما DSA (DeepSeek Sparse Attention) وNSA (Native Sparse Attention) الذي اقترح في ورقة بحثية بداية هذا العام، مع حجم رأس 512، بالتوافق مع Sparse MQA وSWA (انتباه النوافذ المتحركة). طبقة MoE تتكون من 384 خبيرًا، يتم تنشيط 6 منهم في كل مرة، باستخدام نواة Mega-Kernel المدمجة لـ Fused MoE. يتم استخدام اتصالات التوصيل المتبقية Hyper-Connections. التفاصيل التي تم الكشف عنها لأول مرة في مرحلة التدريب تشمل: استخدام محسن Muon (مُحسن مصفوفي يستخدم تطبيق طريقة Newton-Schulz للتطبيع المتعامد على تحديث الزخم)، طول سياق ما قبل التدريب 32 ألف، وخلال مرحلة التعلم المعزز تم استخدام GRPO مع إضافة تصحيح KL divergence. وتم توسيع طول السياق النهائي إلى مليون. النموذج يعتمد على النصوص فقط. ييفان تشانغ لا يشغل منصبًا في DeepSeek، ولم ترد شركة DeepSeek رسميًا على المعلومات المذكورة أعلاه. (المصدر: BlockBeats)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
Gate13thAnniversaryLive
1.06M درجة الشعبية
#
WCTCTradingChallengeShare8MUSDT
791.16K درجة الشعبية
#
BitcoinBouncesBack
206.28K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
30.66K درجة الشعبية
#
EthereumMemeSeasonReturns
2M درجة الشعبية

تثبيت

خريطة الموقع

ييفان تشانغ يكشف عن المواصفات التقنية الكاملة لـ DeepSeek V4: 1.6 تيرابايت من المعلمات، و384 خبير تنشيط لستة

المواضيع الرائجة

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

EthereumMemeSeasonReturns

تثبيت