Hugging Face أعاد تغريد أداة turboquant-gpu، التي تدعي تقديم ضغط تخزين KV بمعدل 5.02 مرات

robot
إنشاء الملخص قيد التقدم

أخبار ME، في 6 أبريل (بتوقيت UTC+8)، أعادت شركة Hugging Face تغريد خبرًا نشره @anirudhbv_ce، أعلنت فيه عن إطلاق أداة turboquant-gpu. وتدعي الأداة أنها توفر ضغط تخزين مؤقت للذاكرة (KV) بسرعة تصل إلى 5.02 ضعف على أي وحدة معالجة رسومات (GPU) بما في ذلك RTX و H100 و A100 و B200. ووفقًا للمقال، تشمل ميزاتها: التوافق مع مكتبة Hugging Face Transformers؛ واجهة برمجة تطبيقات بسيطة جدًا، وتدعي أنه يمكن تنفيذ الضغط والتوليد باستخدام 3 أسطر من الكود فقط؛ اعتماد تقنية ضغط KV المدمجة باستخدام تقنية Lloyd-Max ذات 3 بت، وتدعي تحقيق تشابه جيبي (cosine similarity) بمقدار 0.98. ويعتقد المقال أن أدائها يتفوق على MXFP4 (الذي يحقق ضغطًا بمقدار 3.76 ضعف) وحل آخر غير مسمى. (المصدر: InFoQ)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت