أقوى نموذج مفتوح المصدر DeepSeek v4 أخيرًا هنا!
نموذج بـ 1.6 تريليون معلمة، ترخيص MIT، وتقليل استهلاك ذاكرة العرض للنصوص الطويلة إلى عُشر حجم V3.2

robot
إنشاء الملخص قيد التقدم

وفقًا لمراقبة Beating، إصدار معاينة من سلسلة DeepSeek المفتوحة المصدر V4، برخصة MIT، تم رفع الأوزان على Hugging Face و ModelScope. تتضمن السلسلة نموذجين من MoE: V4-Pro بإجمالي 1.6 تيرابايت من المعلمات، و49 مليار تنشيط لكل رمز؛ وV4-Flash بإجمالي 284 مليار من المعلمات، و13 مليار تنشيط؛ كلاهما يدعم سياقًا من حوالي مليون رمز.

ترقية ثلاثية في الهيكل: آلية الانتباه المختلطة (الانتباه المضغوط والمنتشر CSA + الانتباه المضغوط الثقيل HCA) تقلل بشكل كبير من استهلاك السياق الطويل، في سياق مليون رمز، FLOPs لاستنتاج رمز واحد في V4-Pro هو فقط 27% من V3.2، وذاكرة التخزين المؤقت لـ KV (الذاكرة المستخدمة لتخزين المعلومات التاريخية أثناء الاستنتاج) هي فقط 10% من V3.2؛ قيد الشكل المقيّد للاتصال الفائق mHC يحل محل الاتصالات المتبقية التقليدية، مما يعزز استقرار نقل الإشارات عبر الطبقات؛ تم تعديل التدريب باستخدام محسن Muon لتسريع التقارب. البيانات قبل التدريب تزيد عن 32 تيرابايت من الرموز.

يتم تقسيم التدريب بعد ذلك إلى مرحلتين: أولاً، يتم تدريب خبراء المجالات باستخدام SFT و GRPO لتعزيز التعلم، ثم يتم دمجهم عبر التقطير عبر الإنترنت ليصبحوا نموذجًا واحدًا. يدعي V4-Pro-Max (وضع أقصى قوة استنتاج) أنه النموذج المفتوح المصدر الأقوى حاليًا، مع معايير ترميز تصل إلى المستوى الأعلى، وتقليل الفجوة بين الاستنتاج ومهام الوكيل مع أحدث النماذج المغلقة بشكل ملحوظ. في حين أن V4-Flash-Max، بعد تخصيص ميزانية للتفكير، يظهر أداء استنتاج قريبًا من Pro، لكنه محدود في المعرفة الصافية والمهام المعقدة للوكيل بسبب حجم المعلمات. يتم تخزين الأوزان بدقة مختلطة من FP4+FP8.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت