مكتبة العمليات على وحدات معالجة الرسومات مفتوحة المصدر DeepSeek DeepGEMM إصدار كبير جديد، يضيف Mega MoE لدمج خطوات حساب MoE الخمسة في نواة واحدة

robot
إنشاء الملخص قيد التقدم

أخبار ME، في 16 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 动察 Beating، أصدرت DeepSeek اليوم أكبر تحديث منذ إصدار DeepGEMM كمصدر مفتوح. كانت مكتبة العمليات على وحدات معالجة الرسومات التي أُطلقت خلال أسبوع “الافتتاح المصدر” في فبراير من العام الماضي، تقتصر على ضرب المصفوفات بدقة FP8، والآن توسعت لتشمل مكتبة عمليات كاملة لمرحلة استنتاج النماذج الكبيرة، تدعم عمليات المصفوفة بدقة FP8، FP4، BF16، بالإضافة إلى عمليات مخصصة مثل MoE وتقييم الانتباه.
الابتكار الرئيسي هو Mega MoE. بنية MoE (الخبراء المختلطون) هي أساس نماذج مثل DeepSeek V3، وتتطلب أثناء الاستنتاج تنفيذ خمس خطوات بالتسلسل: توزيع EP، التحويل الخطي للطبقة الأولى، تنشيط SwiGLU، التحويل الخطي للطبقة الثانية، ودمج EP. الطريقة التقليدية تتطلب استدعاء خمس نوى مستقلة بشكل متسلسل، حيث يجب الانتظار حتى تكتمل كل خطوة، وتنقل البيانات بين الذاكرة الرسومية.
يعمل Mega MoE على دمج هذه الخطوات الخمس في نواة واحدة، مما يسمح بالتواصل عبر NVLink والحساب باستخدام Tensor Core في نفس الوقت، مما يقلل من الانتظار ونقل البيانات. يدعم حالياً مجموعة دقة FP8×FP4 فقط، ويتطلب إصدار PyTorch 2.9 أو أعلى، وأكد الفريق أن التحسينات لا تزال جارية، وسيتم نشر بيانات الأداء لاحقًا.
تشمل الإضافات الأخرى: ضرب المصفوفات بدقة مختلطة FP8×FP4، دعم تقييم الانتباه بدقة FP4 لمزيد من حجم MTP، وPDL (بدء الاعتماد البرمجي، وهو تحسين لجدولة GPU يقلل من تأخير بدء النواة)، وسرعة ترجمة JIT، بالإضافة إلى تحسينات متعددة لعمليات المصفوفة MoE.
كما تم تكييف هذا التحديث مع تخطيط بيانات MoE في DeepEPv2. وأوضح بيان PR بشكل خاص: «هذا الإصدار مرتبط فقط بتطوير DeepGEMM، وليس له علاقة بنشر النماذج الداخلية.»
(المصدر: BlockBeats)

DEEPSEEK‎-1.94%
MEGA4.01%
KERNEL2.09%
ME1.23%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت