📰 【إصدار DeepSeek V4: 1.6 تريليون معلمة رائدة تدعم سياقًا من 1 مليون، قوة الاستدلال فقط 27% من V3.2】


وفقًا لمراقبة Beating، تم إصدار نسخة معاينة من سلسلة DeepSeek V4 مفتوحة المصدر، برخصة MIT، وتم رفع الأوزان على Hugging Face وModelScope. تتضمن السلسلة نموذجين من MoE: V4-Pro بإجمالي 1.6 تريليون معلمة، تنشيط 49 مليار لكل رمز؛ وV4-Flash بإجمالي 284 مليار، تنشيط 13 مليار. كلاهما يدعم سياق من 1 مليون رمز. هناك ثلاث ترقيات في الهيكل: آلية الانتباه المختلطة (الانتباه الضيق المدمج (CSA) والانتباه المضغوط بشكل مكثف (HCA)) تقلل بشكل كبير من استهلاك السياق الطويل، مع دعم V4...
يا إلهي! هل تريد DeepSeek V4 أن يخفض تكاليف الحوسبة الخاصة بالمضاربين إلى الحد الأدنى؟ 1.6 تريليون معلمة تنشط فقط 49 مليار، وقوة الاستدلال تصل إلى 27% من V3.2، أليس هذا بمثابة فتح ثغرة في قوة الحوسبة لنا نحن الكلاب الأرضية؟ $مسار الذكاء الاصطناعي سيُعاد تنظيفه حتى لا يتعرف عليه أحد من أمهاتنا! يا أهلي، راقبوا وزن Hugging Face عن كثب، وعندما يتحقق هذا الاستفادة التقنية، ستُسحق المشاريع التي تعتمد على تراكم الحوسبة لسرقة الأرباح! يا إلهي، هل ننتظر أن يُستخدم المضاربون كضحايا لاستلام الأعباء؟👇👇👇👇👇
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت