إصدار DeepSeek V4: النموذج الرئيسي بـ 1.6 تريليون معلمة يدعم سياقًا بطول 1 مليون، مع قوة حوسبة استدلالية تبلغ 27% فقط من V3.2.

ME News أخبار، 24 أبريل (UTC+8)، وفقًا لرصد Beating، أصدرت DeepSeek الإصدار التجريبي من سلسلة V4 مفتوحة المصدر، بترخيص MIT، وتم رفع الأوزان على Hugging Face و ModelScope. تحتوي السلسلة على نموذجين من نوع MoE: V4-Pro بإجمالي معلمات 1.6T، وتفعيل 49B لكل رمز (49 مليار)؛ V4-Flash بإجمالي معلمات 284B (284 مليار)، وتفعيل 13B (13 مليار). كلاهما يدعمان سياق بحجم 1M رمز. ثلاث ترقيات في البنية: آلية الانتباه الهجين (انتباه متفرق مضغوط CSA + انتباه مضغوط بشدة HCA) تقلل بشكل كبير من تكلفة السياق الطويل، حيث تبلغ FLOPs لاستدلال رمز واحد في V4-Pro تحت سياق 1M فقط 27% من V3.2، وذاكرة KV (استهلاك الذاكرة لتخزين المعلومات التاريخية أثناء الاستدلال) تبلغ 10% من V3.2؛ اتصال فائق مقيد بالمنوع mHC يحل محل الاتصال المتبقي التقليدي، مما يعزز استقرار نقل الإشارة عبر الطبقات؛ تم تغيير التدريب إلى محسن Muon لتسريع التقارب. بيانات ما قبل التدريب تتجاوز 32T رمز. ينقسم ما بعد التدريب إلى مرحلتين: أولاً، يتم تدريب الخبراء في كل مجال باستخدام SFT و GRPO للتعلم المعزز، ثم يتم دمجهم في نموذج واحد عبر التقطير عبر الإنترنت. يدّعي V4-Pro-Max (أعلى درجة من قوة الاستدلال) أنه أقوى نموذج مفتوح المصدر حاليًا، وقد وصل معيار الترميز إلى المستوى الأعلى، وضاقت الفجوة في مهام الاستدلال والوكيل بشكل ملحوظ مع النماذج المغلقة الرائدة. يقترب أداء V4-Flash-Max من Pro بعد تخصيص ميزانية تفكير كافية، لكنه محدود بحجم المعلمات في المعرفة البحتة ومهام الوكيل المعقدة. يتم تخزين الأوزان بدقة مختلطة FP4+FP8. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت