PyTorch TorchInductor يدمج CuteDSL كخلفية لضبط أداء ضرب المصفوفات تلقائيًا

robot
إنشاء الملخص قيد التقدم

أخبار ME News، في 7 أبريل (بتوقيت UTC+8)، أعلن فريق PyTorch الرسمي مؤخرًا أنه قد دمج CuteDSL كخلفية تلقائية لضبط أداء ضرب المصفوفات في TorchInductor، كالرابع من نوعها. تم اختيار هذه الخلفية استنادًا إلى ثلاثة معايير: عدم زيادة عبء الصيانة بشكل كبير، وعدم إبطاء وقت الترجمة أو الاختبار المعياري، وتقديم أداء أفضل على عبء العمل المستهدف. تم تطوير CuteDSL بشكل نشط بواسطة NVIDIA، ويقدم قوالب نواة محسنة، ويتميز بزمن ترجمة مماثل للخلفيات الحالية، ويتفوق بشكل ملحوظ على مسار CUTLASS C++ الذي يتطلب ترجمة كاملة باستخدام nvcc. تعتمد هذه الخلفية على نفس التجريد المستخدم في CUTLASS C++، مكتوبة بلغة بايثون، وتترجم بشكل أسرع وأسهل في الصيانة، وقد أثبتت قدرتها على تقديم أداء قوي في دمج FP8 GEMM و Epilogue. يركز الفريق على تحسين GEMM (ضرب المصفوفات)، لأنه يشكل الجزء الرئيسي من الحساب في نماذج Transformer. يوفر CuteDSL قوالب محسنة يدويًا لتوليد الكود الأساسي، مما يتجنب تعقيد كتابة النواة من الصفر، ويكشف تمامًا عن بنية الخيوط والذاكرة، ويدعم الميزات الخاصة بالمعمارية. (المصدر: InFoQ)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت