الجانب المظلم للقمر يطلق مشروع FlashKDA مفتوح المصدر، وزيادة سرعة الاستنتاج بواسطة Kimi Linear من 1.7 إلى 2.2 مرة

robot
إنشاء الملخص قيد التقدم

أخبار ME، في 22 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة Beating، تم إصدار FlashKDA على GitHub كمصدر مفتوح، وهو أداة مخصصة لتسريع استنتاج النماذج لبطاقات الرسوميات من سلسلة Hopper من إنفيديا (H100، H20 وغيرها)، بموجب ترخيص MIT. الهدف منها هو KDA، وهو آلية الانتباه الجديدة التي اقترحتها ورقة Kimi Linear العام الماضي. عند قراءة النصوص الطويلة، تتضخم كمية الحسابات في الانتباه التقليدي بمقدار تربيعي مع طول النص، مما يرفع التكلفة بشكل كبير، بينما يقلل الانتباه الخطي من هذا التكلفة إلى نمو خطي، وKDA هو نسخة محسنة من هذا النهج. هيكل نموذج Kimi Linear يتكون من 3 طبقات من KDA تتبعها طبقة واحدة من الانتباه التقليدي بشكل متتالي. كان هناك نسخة من KDA مكتوبة بلغة Triton موجودة مسبقًا في مكتبة المصدر المفتوح flash-linear-attention (اختصارًا fla). أعادت FlashKDA كتابة النسخة باستخدام مكتبة GPU الأساسية من إنفيديا، CUTLASS، بهدف استغلال أداء بطاقات Hopper بشكل خاص. أظهرت الاختبارات الرسمية على H20 أن FlashKDA أسرع من نسخة Triton بمعدل يتراوح بين 1.7 و2.2 مرة في عملية التمرير الأمامي، مع تحسين ملحوظ خاصة في سيناريوهات طول الإدخال غير المتساوي والمعالجة على دفعات. ومع ذلك، لم تقارن الشركة إلا مع نسخة Triton الخاصة بها، ولم تقم بالمقارنة مع حلول الانتباه الخطي الأخرى. هذه المرة، تم فتح المصدر فقط للحساب الأمامي، مما يعني أنه يمكن “تشغيل النموذج” (الاستنتاج) فقط، ولا يمكن “تدريب النموذج”، حيث لا يزال التدريب يتطلب استخدام نسخة Triton الأصلية. متطلبات الاستخدام: يجب أن تكون البطاقة من سلسلة Hopper أو أحدث (مع بداية بنية SM90)، وCUDA 12.9 أو أعلى، وPyTorch 2.4 أو أعلى. كما تم دمج FlashKDA كخلفية جديدة في النسخة العليا من fla (طلب سحب #852)، ويمكن للمستخدمين القدامى التبديل بسهولة بتغيير سطر واحد في الإعدادات. (المصدر: BlockBeats)

KDA1.18%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت