تعاونت هواوي مع جامعة الصين للعلوم والتكنولوجيا لكسر احتكار نيفيديا، وسرعة حسابات خبراء النماذج الكبيرة على سونغتينغ A3 تتسارع بنسبة 58%

وفقًا لمراقبة Beating، في تطور بنية MoE واسعة النطاق، أصبح استخدام شرائح Ascend المحلية لتدريب النماذج الكبيرة اتجاهًا رئيسيًا لبناء قدرات ذكاء اصطناعي مستقلة وقابلة للتحكم. ومع ذلك، فإن معظم أُطُر النماذج الكبيرة السائدة تعتمد على بيئة CUDA من إنفيديا، وعند نقلها مباشرة إلى منصة Ascend، تواجه تحديات مثل عدم توازن جدولة قوائم الأجهزة وانخفاض كفاءة استخدام القدرة الحسابية. أطلقت جامعة العلوم والتكنولوجيا، وهواوي، وجامعة بكين إطار عمل للترجمة والجدولة يسمى HyperParallel-MoE، والذي يستهدف إدارة قوائم الأجهزة الفريدة في A3 من Ascend على مستوى البلاط (tile-level)، بهدف كسر عنق الزجاجة في كفاءة الطاقة عند الجدولة المتوازية للحوسبة غير المتجانسة.

يحتوي A3 من Ascend على نوعين من النوى، AIC المسؤول عن ضرب المصفوفات، وAIV الذي يتعامل مع حسابات المتجهات والاتصالات. ولكن في ظل الجدولة التسلسلية التقليدية للعمليات، يمكن لنوعين من النوى العمل بالتناوب، مما يؤدي إلى فترات فراغ متبادلة. أظهرت البيانات التجريبية أنه عند تشغيل نموذج كبير بأسلوب DeepSeek بحجم 671 مليار على مجموعة من 256 عقدة، كانت نسبة استخدام AIC فقط 67%، و39% من تأخيرات توجيه الخبراء عبر الشبكة ظهرت على مسار الحساب الحرج.

تتضمن التعديلات الأساسية في HyperParallel-MoE ثلاث نقاط. الأولى، تصميم أمر كتابة أحادي الجانب يقوده AIV، بحيث يتم تفعيل الحساب فور وصول بيانات البلاط، دون الحاجة لانتظار اكتمال الدفعة كاملة. الثانية، إدخال توليد مهام البلاط المعتمدة على الاعتمادية، حيث يتم تجريد الاتصالات والعمليات الحسابية بشكل موحد. الثالثة، استخدام مُجدول ثابت مسبقًا لتوليد تسلسل المهام، بحيث يقود نواتان من نوعين من النوى بشكل متزامن داخل نواة واحدة، ويستفيد من ذاكرة L2 عالية السرعة لمشاركة النتائج الوسيطة، مما يقلل من زمن التأخير الناتج عن الكتابة والقراءة من ذاكرة HBM البطيئة.

أظهرت الاختبارات أنه تحت توجيه متوازن عبر 64 عقدة، تقلصت مدة تأخير الوحدة الأساسية المسؤولة عن حساب الخبراء (MoE-FFN) بحوالي 36%، مما يعادل زيادة سرعة معالجة البيانات بنسبة تصل إلى 58% (أي تحسين من 1.49 إلى 1.58 مرة في السرعة). وفي التشغيل الشامل من طرف إلى طرف، زادت سرعة التدريب خطوة واحدة بنسبة تتراوح بين 8% و9%. هذا يوضح أن الكفاءة الفعلية لشرائح Ascend لا تعتمد فقط على المواصفات المادية، بل تعتمد أيضًا على قدرة المترجم وبيئة التشغيل على جدولة نوى AIC/AIV بكفاءة عالية.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 7
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
GateUser-76dcd439
· منذ 22 د
أخيرًا أصبح لدى الرقائق المحلية إطار تحسين مخصص لـ MoE، فكرة جدولة المستوى الشظية HyperParallel-MoE تعتبر دقيقة جدًا
شاهد النسخة الأصليةرد0
TreatEarningsAsSnacks
· منذ 4 س
حاجز حماية نظام CUDA البيئي عميق جدًا، لا يمكن استبداله محليًا بشكل مباشر، بل يتطلب إعادة بناء أساسية من هذا النوع
شاهد النسخة الأصليةرد0
CapitalFlowInATeacup
· منذ 4 س
التحكم الذاتي والسيطرة ليست مجرد شعار، بل هي نتيجة لكتابة هذا السطر تلو الآخر من الشفرات
شاهد النسخة الأصليةرد0
LiquidityLifeguard
· منذ 4 س
جامعة بكين تتخصص في الأنظمة،
والجامعة الصينية في الهندسة المعمارية،
وهواوي تنفذ على أرض الواقع،
نموذج الإنتاج والتعلم والبحث هو الأنسب.
شاهد النسخة الأصليةرد0
BridgeSideEyes
· منذ 4 س
معدل استخدام القدرة الحاسوبية المنخفض كان دائمًا نقطة ألم لشانغتنج، كم يمكن أن يرفع هذه المرة؟ هل لديك بيانات؟
شاهد النسخة الأصليةرد0
GateUser-de0b9e3b
· منذ 4 س
هواوي جادة في تطوير المترجمات، من MindSpore إلى هذا الإطار، والبيئة تتطور تدريجيًا.
شاهد النسخة الأصليةرد0
GateUser-26374bb4
· منذ 4 س
يستهلك MoE بالفعل الموارد في الجدولة، ويجب على الشرائح المحلية أن تبذل جهودًا في مثل هذه التفاصيل لتتقدم.
شاهد النسخة الأصليةرد0
  • مُثبت