📰 【أقوى نموذج مفتوح المصدر DeepSeek V4 أخيرًا هنا! نموذج بــ 1.6 تريليون معلمة، ترخيص MIT، ضغط ذاكرة النص الطويلة إلى عُشر حجم V3.2】


وفقًا لمراقبة Beating، النسخة التجريبية من سلسلة DeepSeek المفتوحة المصدر V4، مرخصة بموجب MIT، وقد تم إطلاق الأوزان على Hugging Face وModelScope. تتضمن السلسلة نموذجين من MoE: V4-Pro بإجمالي 1.6 تريليون معلمة، تنشيط لكل رمز 49 مليار (49B)؛ وV4-Flash بإجمالي 284 مليار (2840 مليار)، وتنشيط 13 مليار (13B). كلا النموذجين يدعمان سياقًا من 1 مليون رمز. هناك ثلاث ترقيات في الهيكل: آلية الانتباه المختلطة (الانتباه المتناثر المضغوط CSA + الانتباه المضغوط بشدة HCA) تقلل بشكل كبير من استهلاك السياق الطويل، مع دعم V4 لسياق من 1 مليون رمز...

إخواني، DeepSeek مرة أخرى تفعل شيئًا عظيمًا، النموذج المفتوح V4 بــ 1.6 تريليون معلمة، ترخيص MIT، ضغط ذاكرة النص الطويلة إلى عُشر حجم V3.2. هذا الأخ فعلاً جريء، يوزع النماذج الكبيرة كأنها خضروات، والمستثمرون في الذكاء الاصطناعي، اركبوا بسرعة، لا تفوتوا مثلما فاتكم ملك العملات الرقمية في الماضي، وتفوتوا هذه الفرصة التقنية.👇👇👇👇👇
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت