خبر شبكة币界، أطلقت DeepSeek سلسلة V4، النموذج الرائد يحتوي على إجمالي 1.6 تيرابايت من المعلمات، ويدعم سياقًا بحجم 1 مليون، وقوة استنتاج حسابية تبلغ فقط 27% من V3.2. تتضمن السلسلة نموذجين MOE: v4-pro بإجمالي 1.6 تيرابايت من المعلمات، و49 مليار تنشيط لكل رمز (490 مليون)، وv4-flash بإجمالي 284 مليار من المعلمات (2840 مليون)، و13 مليار تنشيط. تشمل ترقية الهيكل آلية انتباه مختلطة، مما يقلل بشكل كبير من استهلاك السياق الطويل، وFLOPS استنتاج رمز واحد لـ v4-pro هو فقط 27% من V3.2. تجاوزت بيانات التدريب أكثر من 32 تيرابايت من الرموز، وتم تقسيم التدريب اللاحق إلى مرحلتين، ويدعي v4-pro-max أنه أقوى نموذج مفتوح المصدر حاليًا، ويقترب أداؤه في الاستنتاج من النماذج المتقدمة المغلقة المصدر. يتم تخزين الأوزان بدقة مختلطة FP4 + FP8.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت