DeepSeek تكشف عن معاينة سلسلة V4، برخصة MIT، والأوزان متاحة على HuggingFace وModelScope. V4-Pro1.6T، V4-Flash284B، يدعمان سياقًا بحجم حوالي 1 مليون، مع تنشيط بقيم 49B و13B على التوالي. تم الترقية إلى انتباه مختلط CSA+HCA، واتصال مفرط mHC، وتحسين Muon، مع بيانات تدريب تزيد عن 32 تيرابايت. مرحلتان بعد التدريب: تربية خبراء المجال عبر SFT/GRPO ثم التقطير عبر الإنترنت ودمج. Pro-Max هو الأقوى مفتوح المصدر، ويقترب من الحد الأقصى في الاستدلال؛ أما Flash-Max، فيظل قريبًا من Pro بميزانية تفكير كافية، لكن حجمه محدود. الأوزان تستخدم دقة مختلطة بين FP4 وFP8.

BlockBeatNews

2026-04-24 03:22:40

إنشاء الملخص قيد التقدم

وفقًا لمراقبة Beating، إصدار معاينة من سلسلة DeepSeek المفتوحة المصدر V4، برخصة MIT، تم رفع الأوزان على Hugging Face و ModelScope. تتضمن السلسلة نموذجين من MoE: V4-Pro بإجمالي 1.6 تيرابايت من المعلمات، و49 مليار تنشيط لكل رمز؛ وV4-Flash بإجمالي 284 مليار من المعلمات، و13 مليار تنشيط؛ كلاهما يدعم سياقًا من حوالي مليون رمز.

ترقية ثلاثية في الهيكل: آلية الانتباه المختلطة (الانتباه المضغوط والمنتشر CSA + الانتباه المضغوط الثقيل HCA) تقلل بشكل كبير من استهلاك السياق الطويل، في سياق مليون رمز، FLOPs لاستنتاج رمز واحد في V4-Pro هو فقط 27% من V3.2، وذاكرة التخزين المؤقت لـ KV (الذاكرة المستخدمة لتخزين المعلومات التاريخية أثناء الاستنتاج) هي فقط 10% من V3.2؛ قيد الشكل المقيّد للاتصال الفائق mHC يحل محل الاتصالات المتبقية التقليدية، مما يعزز استقرار نقل الإشارات عبر الطبقات؛ تم تعديل التدريب باستخدام محسن Muon لتسريع التقارب. البيانات قبل التدريب تزيد عن 32 تيرابايت من الرموز.

يتم تقسيم التدريب بعد ذلك إلى مرحلتين: أولاً، يتم تدريب خبراء المجالات باستخدام SFT و GRPO لتعزيز التعلم، ثم يتم دمجهم عبر التقطير عبر الإنترنت ليصبحوا نموذجًا واحدًا. يدعي V4-Pro-Max (وضع أقصى قوة استنتاج) أنه النموذج المفتوح المصدر الأقوى حاليًا، مع معايير ترميز تصل إلى المستوى الأعلى، وتقليل الفجوة بين الاستنتاج ومهام الوكيل مع أحدث النماذج المغلقة بشكل ملحوظ. في حين أن V4-Flash-Max، بعد تخصيص ميزانية للتفكير، يظهر أداء استنتاج قريبًا من Pro، لكنه محدود في المعرفة الصافية والمهام المعقدة للوكيل بسبب حجم المعلمات. يتم تخزين الأوزان بدقة مختلطة من FP4+FP8.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
WCTCTradingChallengeShare8MUSDT
835.28K درجة الشعبية
#
CryptoMarketSeesVolatility
204.68K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
30.82K درجة الشعبية
#
rsETHAttackUpdate
78.95K درجة الشعبية
#
US-IranTalksStall
8.66K درجة الشعبية

تثبيت

خريطة الموقع

أقوى نموذج مفتوح المصدر DeepSeek v4 أخيرًا هنا! نموذج بـ 1.6 تريليون معلمة، ترخيص MIT، وتقليل استهلاك ذاكرة العرض للنصوص الطويلة إلى عُشر حجم V3.2

المواضيع الرائجة

WCTCTradingChallengeShare8MUSDT

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

تثبيت

أقوى نموذج مفتوح المصدر DeepSeek v4 أخيرًا هنا!
نموذج بـ 1.6 تريليون معلمة، ترخيص MIT، وتقليل استهلاك ذاكرة العرض للنصوص الطويلة إلى عُشر حجم V3.2