أخبار ME، في 22 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة Beating، قام طالب الدكتوراه في برينستون ييفان تشانغ بتحديث التفاصيل التقنية لـ DeepSeek V4 على X. في 19 أبريل، أعلن عن "V4 الأسبوع المقبل" وذكر ثلاثة أسماء لمكونات الهيكل، وأعطى الليلة جدول المعلمات الكامل، وكشف لأول مرة عن وجود نسخة خفيفة من V4-Lite تحتوي على 285 مليار معلمة. إجمالي حجم V4 هو 1.6 تيرابايت. آلية الانتباه هي DSA2، والتي تجمع بين DSA (الانتباه المتناثر العميق) الذي استخدمته DeepSeek سابقًا في V3.2 وNSA (الانتباه المتناثر الأصلي) الذي اقترحته الورقة البحثية في بداية هذا العام، وهما نوعان من خطط الانتباه المتناثر، مع رأس-البعد 512، بالتزامن مع Sparse MQA وSWA (انتباه النافذة المنزلقة). طبقة MoE تتكون من 384 خبيرًا، يتم تنشيط 6 منهم في كل مرة، باستخدام نواة Mega-Kernel المدمجة لـ Fused MoE. يتم استخدام Hyper-Connections في الاتصالات المتبقية. التفاصيل التي تم الكشف عنها لأول مرة في مرحلة التدريب تشمل: استخدام محسن Muon (نوع من المحسنات المصفوفية الذي يطبق تقنيات نيوتن-شولز للتطبيع المتعامد على تحديث الزخم)، طول سياق ما قبل التدريب 32K، وخلال مرحلة التعلم المعزز، تم استخدام GRPO مع إضافة تصحيح KL divergence. وتم توسيع طول السياق النهائي إلى 1 مليون. النموذج يعتمد على النصوص فقط. ييفان تشانغ لا يشغل منصبًا في DeepSeek، ولم ترد DeepSeek رسميًا على المعلومات المذكورة أعلاه. (المصدر: BlockBeats)

DEEPSEEK%3.42

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
MyGateTradeStory
1.25M درجة الشعبية
#
GateStocks7x24Trading
9.12M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
61.99K درجة الشعبية
#
PredictWorldCup🇺🇸vs🇵🇾
893.06K درجة الشعبية
#
TradFiCFDGoldMaster
2.08M درجة الشعبية

مُثبت

خريطة الموقع

ييفان تشانغ تكشف عن المواصفات التقنية الكاملة لـ DeepSeek V4: 1.6 تيرابايت من المعلمات، و384 خبير تنشيط لستة

المواضيع الرائجة

MyGateTradeStory

GateStocks7x24Trading

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

TradFiCFDGoldMaster

مُثبت