في 16 أبريل، أطلقت DeepGEMM أكبر تحديث على الإطلاق، موسعًا ليشمل مكتبة العمليات الكاملة لاستنتاج النماذج الكبيرة، مع دعم عمليات المصفوفة بـ FP8/FP4/BF16 وعمليات MoE والانتباه وغيرها من العمليات الخاصة. الجوهر هو Mega MoE، الذي يدمج خمس خطوات للاستنتاج في نواة واحدة، ويستفيد من NVLink وTensor Core بالتوازي، مما يقلل بشكل كبير من الانتظار ونقل البيانات؛ حاليًا يدعم فقط FP8×FP4، ويتطلب PyTorch 2.9+، وسيتم الإعلان عن بيانات الأداء لاحقًا. كما أضاف التحديث عمليات ضرب مصفوفة FP8×FP4، وتقييم الانتباه FP4، وPDL وتحسينات JIT أسرع، بالإضافة إلى تكييفها مع تخطيط بيانات DeepEPv2 MoE.

MeNews

2026-05-14 18:50:03

إنشاء الملخص قيد التقدم

أخبار ME، في 16 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 动察 Beating، أصدرت DeepSeek اليوم أكبر تحديث منذ إصدار DeepGEMM كمصدر مفتوح. كانت مكتبة العمليات على وحدات معالجة الرسومات التي أُطلقت خلال أسبوع “الافتتاح المصدر” في فبراير من العام الماضي، تقتصر على ضرب المصفوفات بدقة FP8، والآن توسعت لتشمل مكتبة عمليات كاملة لمرحلة استنتاج النماذج الكبيرة، تدعم عمليات المصفوفة بدقة FP8، FP4، BF16، بالإضافة إلى عمليات مخصصة مثل MoE وتقييم الانتباه.
الابتكار الرئيسي هو Mega MoE. بنية MoE (الخبراء المختلطون) هي أساس نماذج مثل DeepSeek V3، وتتطلب أثناء الاستنتاج تنفيذ خمس خطوات بالتسلسل: توزيع EP، التحويل الخطي للطبقة الأولى، تنشيط SwiGLU، التحويل الخطي للطبقة الثانية، ودمج EP. الطريقة التقليدية تتطلب استدعاء خمس نوى مستقلة بشكل متسلسل، حيث يجب الانتظار حتى تكتمل كل خطوة، وتنقل البيانات بين الذاكرة الرسومية.
يعمل Mega MoE على دمج هذه الخطوات الخمس في نواة واحدة، مما يسمح بالتواصل عبر NVLink والحساب باستخدام Tensor Core في نفس الوقت، مما يقلل من الانتظار ونقل البيانات. يدعم حالياً مجموعة دقة FP8×FP4 فقط، ويتطلب إصدار PyTorch 2.9 أو أعلى، وأكد الفريق أن التحسينات لا تزال جارية، وسيتم نشر بيانات الأداء لاحقًا.
تشمل الإضافات الأخرى: ضرب المصفوفات بدقة مختلطة FP8×FP4، دعم تقييم الانتباه بدقة FP4 لمزيد من حجم MTP، وPDL (بدء الاعتماد البرمجي، وهو تحسين لجدولة GPU يقلل من تأخير بدء النواة)، وسرعة ترجمة JIT، بالإضافة إلى تحسينات متعددة لعمليات المصفوفة MoE.
كما تم تكييف هذا التحديث مع تخطيط بيانات MoE في DeepEPv2. وأوضح بيان PR بشكل خاص: «هذا الإصدار مرتبط فقط بتطوير DeepGEMM، وليس له علاقة بنشر النماذج الداخلية.»
(المصدر: BlockBeats)

DEEPSEEK‎-1.94%

MEGA4.01%

KERNEL2.09%

ME1.23%

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GateSquareMayTradingShare
1.69M درجة الشعبية
#
CLARITYActPassesSenateCommittee
3.48M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
46.76K درجة الشعبية
#
#DailyPolymarketHotspot
938.59K درجة الشعبية
#
BitcoinVShapedReversalBack
226.95M درجة الشعبية

مُثبت

خريطة الموقع

مكتبة العمليات على وحدات معالجة الرسومات مفتوحة المصدر DeepSeek DeepGEMM إصدار كبير جديد، يضيف Mega MoE لدمج خطوات حساب MoE الخمسة في نواة واحدة

المواضيع الرائجة

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

مُثبت