«هل رقاقة هواوي تؤخر إطلاق DeepSeek V4؟» نفس النواة تعمل مع كل من Nvidia وAscend وتسريع ما يقرب من ضعفين

robot
إنشاء الملخص قيد التقدم
ME News رسالة، في 24 أبريل (UTC+8)، وفقًا لرصد Beating، قبل إصدار DeepSeek V4، انتشرت تكهنات واسعة في المجتمع: تأخر موعد إطلاق V4 عن المتوقع بسبب صعوبات التكيف عند نقل النموذج من NVIDIA إلى منصة Huawei Ascend. على الرغم من أن التقرير الفني لـ V4 لم يرد مباشرة على هذه الشائعات، إلا أن بيانات الأداء التي كشفها تتناقض معها بشكل واضح. يُظهر التقرير أن مخطط تقسيم الخبراء الدقيق (Fine-Grained EP Scheme) لـ V4 قد تم التحقق من نشره على منصتي NVIDIA GPU و Huawei Ascend NPU، مما أدى إلى تسريع أعباء العمل العادية للاستدلال من 1.50 إلى 1.73 مرة، وتسريع السيناريوهات الحساسة للتأخير مثل rollout RL وخدمات Agent عالية السرعة بمقدار يصل إلى 1.96 مرة. قام الفريق بنشر نواة إصدار CUDA MegaMoE كجزء من DeepGEMM مفتوحة المصدر. بمعنى آخر، حقق V4 كفاءة قريبة من الحد النظري على كلا الجهازين، ولم يتسبب التكيف عبر المنصات في أي خسارة في الأداء. (المصدر: BlockBeats)
DEEPSEEK%2.58-
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت