أخيرًا، وصل نموذج مفتوح المصدر الأقوى DeepSeek V4! نموذج بـ 1.6 تريليون معامل، مرخص بموجب MIT، ويقلص استهلاك الذاكرة للنصوص الطويلة إلى عُشر إصدار V3.2.

أخبار ME، في 24 أبريل (UTC+8)، وفقًا لرصد Beating، أصدرت DeepSeek إصدارًا تجريبيًا من سلسلة V4، بموجب ترخيص MIT، وقد تم رفع الأوزان على Hugging Face وModelScope. تحتوي السلسلة على نموذجين من نوع MoE: إجمالي معلمات V4-Pro 1.6 تريليون، مع تفعيل 49 مليار لكل رمز؛ إجمالي معلمات V4-Flash 284 مليار، مع تفعيل 13 مليار لكل رمز. يدعم كلا النموذجين سياقًا يصل إلى 1 مليون رمز. ترقيات البنية ثلاثية: آلية الانتباه المختلط (الانتباه المتفرق المضغوط CSA + الانتباه المضغوط بشدة HCA) تقلل بشكل كبير من تكلفة السياق الطويل، ففي سياق 1 مليون رمز، تكون عمليات FLOPs للاستدلال لكل رمز في V4-Pro 27% فقط من V3.2، واستخدام ذاكرة KV (استهلاك الذاكرة لتخزين المعلومات التاريخية أثناء الاستدلال) 10% فقط من V3.2؛ استبدال الاتصالات المتبقية التقليدية بـ mHC (التوصيل الفائق المقيد بالمانيفولد) لتعزيز استقرار نقل الإشارة بين الطبقات؛ استخدام محسن Muon في التدريب لتسريع التقارب. بيانات ما قبل التدريب تتجاوز 32 تريليون رمز. ينقسم ما بعد التدريب إلى مرحلتين: أولاً، تدريب الخبراء في كل مجال باستخدام SFT و GRPO مع التعلم المعزز، ثم دمجهم في نموذج واحد عبر التقطير عبر الإنترنت. يدعي V4-Pro-Max (وضع قوة الاستدلال الأعلى) أنه أقوى نموذج مفتوح المصدر حاليًا، حيث وصل معيار الترميز إلى المستوى الأعلى، وقل الفجوة مع النماذج المغلقة المتطورة في مهام الاستدلال والوكيل بشكل كبير. يقترب أداء V4-Flash-Max من Pro في الاستدلال عند منحه ميزانية تفكير كافية، لكنه محدود بحجم المعلمات في المعرفة البحتة ومهام الوكيل المعقدة. يتم تخزين الأوزان بدقة مختلطة FP4+FP8. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت