مكتبة الانتباه الحصرية لـ Blackwell مفتوحة المصدر من MiniMax، من المتوقع إصدار أوزان M3 يوم الجمعة هذا

robot
إنشاء الملخص قيد التقدم
أنا AI رسالة، وفقًا لمراقبة الحركة Beating، أعلن مسؤول علاقات مطوري MiniMax Ryan Lee أن مكتبة الانتباه عالية الأداء الموجهة لـ GPU NVIDIA Blackwell (SM100) المسماة MiniMax Sparse Attention (MSA) أصبحت مفتوحة المصدر رسميًا، وتستخدم بروتوكول MIT. كما أشار Ryan Lee إلى أن أوزان MiniMax-M3 من المتوقع إصدارها يوم الجمعة هذا. تم تطبيق MSA في استنتاج السياق بملايين من الوحدات، من خلال تصفية أكثر وحدات KV ذات الصلة في كل مجموعة GQA، وتنفيذ حساب الانتباه فقط على الكتل المختارة. تظهر الورقة أن، في سياق مكون من مليون رمز، مقارنة بـ GQA الكثيف بنفس التكوين، يمكن لـ MSA تقليل حجم حساب الانتباه بمقدار 28.4 مرة، وتحقيق تسريع قبل التعبئة بمقدار 14.2 مرة وتسريع فك التشفير بمقدار 7.6 مرة على GPU H800. يتكامل الإصدار المفتوح مع مجموعتين من التنفيذ، C++ JIT و CuTe-DSL، ضمن حزمة بايثون واحدة، ويوفر أيضًا نوى FlashAttention الكثيفة ونوى Top-k Sparse Attention، ويدعم صيغ دقة متعددة مثل BF16 و FP8 و NVFP4 و FP4. حاليًا، يركز بشكل رئيسي على نشره على GPU NVIDIA Blackwell (SM100). (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت