PyTorch TorchInductor يدمج CuteDSL كخلفية لضبط أداء ضرب المصفوفات تلقائيًا

robot
إنشاء الملخص قيد التقدم

أخبار ME News، في 7 أبريل (بتوقيت UTC+8)، أعلن فريق PyTorch الرسمي مؤخرًا أنه قد دمج CuteDSL كخلفية رابعة لضبط تلقائي لضرب المصفوفات ضمن TorchInductor. تم اختيار هذه الخلفية استنادًا إلى ثلاثة معايير: عدم زيادة عبء الصيانة بشكل كبير، وعدم إبطاء وقت الترجمة أو الاختبار المعياري، وتقديم أداء أفضل على عبء العمل المستهدف. تم تطوير CuteDSL بشكل نشط بواسطة NVIDIA، ويقدم قوالب نواة محسنة، حيث يكون وقت الترجمة مماثلًا للخلفيات الحالية، ويتفوق بشكل ملحوظ على مسار CUTLASS C++ الذي يتطلب ترجمة كاملة باستخدام nvcc. تعتمد هذه الخلفية على نفس التجريد المستخدم في CUTLASS C++، مكتوبة بلغة بايثون، وتترجم بشكل أسرع وأسهل في الصيانة، وقد أثبتت قدرتها على تقديم أداء قوي في دمج FP8 GEMM و Epilogue. يركز الفريق على تحسين GEMM (ضرب المصفوفات)، لأنه يشكل الجزء الرئيسي من الحساب في نماذج Transformer. من خلال توفير قوالب محسنة يدويًا، تولد CuteDSL الشيفرة الأساسية، متجنبًا تعقيد كتابة النواة من الصفر، وتكشف بالكامل عن خيوط المعالجة وطبقات الذاكرة، مع دعم ميزات خاصة بالهندسة المعمارية. (المصدر: InFoQ)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت