PyTorch TorchInductor دمج CuteDSL كخلفية لضبط الأداء التلقائي لضرب المصفوفات

robot
إنشاء الملخص قيد التقدم

أخبار ME، 7 أبريل (UTC+8)، أعلنت مؤخرًا مجموعة PyTorch الرسمية أن فريقها قام بدمج CuteDSL داخل TorchInductor بوصفه الجهة الرابعة من خلفيات ضبط أداء ضرب المصفوفات تلقائيًا. تم اختيار هذه الخلفية وفقًا لثلاثة معايير: عدم إضافة عبء صيانة كبير جدًا، وعدم إبطاء وقت الترجمة أو اختبارات القياس، وتقديم أداء أفضل على أحمال العمل المستهدفة. يتم تطوير CuteDSL بنشاط من قِبل NVIDIA، ويوفر قوالب نوى محسّنة. كما أن زمن ترجمته مماثل لزمن الخلفيات الحالية، لكنه يتفوق بشكل واضح على مسار CUTLASS C++ الذي يتطلب ترجمة كاملة باستخدام \nvcc\ . تعتمد هذه الخلفية على نفس التجريدات المستخدمة في CUTLASS C++، وهي مكتوبة بلغة Python؛ لذلك فهي أسرع في الترجمة وأسهل في الصيانة. وقد أثبتت أداءً قويًا في دمج FP8 GEMM وEpilogue. يركز الفريق على تحسين GEMM (ضرب المصفوفات)، نظرًا لأن هذا النوع يشكل معظم عبء الحساب في نماذج Transformer. يتيح CuteDSL توليد كود المستوى الأساسي عبر توفير قوالب محسّنة يدويًا، مما يتجنب تعقيد كتابة النوى من الصفر، كما يكشف بالكامل عن بنية الخيوط والهرمية الخاصة بالذاكرة، ويدعم ميزات خاصة بالمعمارية. (المصدر: InFoQ)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.21Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.26Kعدد الحائزين:2
    0.15%
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • تثبيت