تقرير أخبار ME يقول إن FlashKDA هو أداة مفتوحة المصدر لتسريع الاستدلال موجهة لـ NVIDIA Hopper، برخصة MIT، تركز على انتباه KDA الخاص بـ Kimi Linear. أعيد كتابته باستخدام CUTLASS، وأداء التوجيه الأمامي على Hopper أسرع بحوالي 1.7 إلى 2.2 مرة مقارنة بـ نسخة Triton، وهو مناسب للمدخلات ذات الطول المتغير وسيناريوهات الدُفعة. يدعم فقط الاستدلال الأمامي، ولا يزال التدريب يستخدم Triton. متطلبات الأجهزة: Hopper+، CUDA 12.9، PyTorch 2.4+، تم دمجه بالفعل في النسخة العليا من fla (PR #852)، والتحويل يتطلب تعديل سطر واحد فقط في الإعداد.

MeNews

2026-04-22 02:01:40

إنشاء الملخص قيد التقدم

أخبار ME، في 22 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة Beating، تم إصدار FlashKDA على GitHub كمصدر مفتوح، وهو أداة مخصصة لتسريع استنتاج النماذج لبطاقات الرسوميات من سلسلة Hopper من إنفيديا (H100، H20 وغيرها)، بموجب ترخيص MIT. الهدف منها هو KDA، وهو آلية الانتباه الجديدة التي اقترحتها ورقة Kimi Linear العام الماضي. عند قراءة النصوص الطويلة، تتضخم كمية الحسابات في الانتباه التقليدي بمقدار تربيعي مع طول النص، مما يرفع التكلفة بشكل كبير، بينما يقلل الانتباه الخطي من هذا التكلفة إلى نمو خطي، وKDA هو نسخة محسنة من هذا النهج. هيكل نموذج Kimi Linear يتكون من 3 طبقات من KDA تتبعها طبقة واحدة من الانتباه التقليدي بشكل متتالي. كان هناك نسخة من KDA مكتوبة بلغة Triton موجودة مسبقًا في مكتبة المصدر المفتوح flash-linear-attention (اختصارًا fla). أعادت FlashKDA كتابة النسخة باستخدام مكتبة GPU الأساسية من إنفيديا، CUTLASS، بهدف استغلال أداء بطاقات Hopper بشكل خاص. أظهرت الاختبارات الرسمية على H20 أن FlashKDA أسرع من نسخة Triton بمعدل يتراوح بين 1.7 و2.2 مرة في عملية التمرير الأمامي، مع تحسين ملحوظ خاصة في سيناريوهات طول الإدخال غير المتساوي والمعالجة على دفعات. ومع ذلك، لم تقارن الشركة إلا مع نسخة Triton الخاصة بها، ولم تقم بالمقارنة مع حلول الانتباه الخطي الأخرى. هذه المرة، تم فتح المصدر فقط للحساب الأمامي، مما يعني أنه يمكن “تشغيل النموذج” (الاستنتاج) فقط، ولا يمكن “تدريب النموذج”، حيث لا يزال التدريب يتطلب استخدام نسخة Triton الأصلية. متطلبات الاستخدام: يجب أن تكون البطاقة من سلسلة Hopper أو أحدث (مع بداية بنية SM90)، وCUDA 12.9 أو أعلى، وPyTorch 2.4 أو أعلى. كما تم دمج FlashKDA كخلفية جديدة في النسخة العليا من fla (طلب سحب #852)، ويمكن للمستخدمين القدامى التبديل بسهولة بتغيير سطر واحد في الإعدادات. (المصدر: BlockBeats)

KDA1.18%

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
Gate13thAnniversaryLive
915.27K درجة الشعبية
#
WCTCTradingChallengeShare8MUSDT
753.41K درجة الشعبية
#
BitcoinBouncesBack
189.54K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
30.62K درجة الشعبية
#
USIranTalksProgress
561.51K درجة الشعبية

تثبيت

خريطة الموقع

الجانب المظلم للقمر يطلق مشروع FlashKDA مفتوح المصدر، وزيادة سرعة الاستنتاج بواسطة Kimi Linear من 1.7 إلى 2.2 مرة

المواضيع الرائجة

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

USIranTalksProgress

تثبيت