TwELL من Sakana AI و NVIDIA مفتوحة المصدر، تنظم البيانات على شكل قطع صغيرة (بلاطات)، وتقوم مباشرة بتعبئة البيانات المفيدة في الذاكرة المحلية، وتتجاوز العمليات غير الفعالة التي تحتوي على تنشيط قريب من الصفر في FFN، مما يحسن كفاءة التوازي لوحدة معالجة الرسومات. في تدريب نموذج يحتوي على 1.5 مليار معلمة، يقلل التنظيم الطفيف من نسبة الخلايا العصبية النشطة إلى أقل من 2%، وتظل سبع مهام فرعية دون تغيير؛ أسرع بنسبة تصل إلى 30% في الاستدلال على H100، وأقصى سرعة تدريب تصل إلى 24%، مع انخفاض في ذروة استهلاك الذاكرة. كلما زاد حجم النموذج، زادت الخلايا العصبية الخاملة، ونسبة المعلمات غير الصفرية في نموذج 2 مليار أقل بنسبة 38% من نموذج 500 مليون، والمستقبل ستستفيد النماذج الكبيرة بشكل أكبر.

BlockBeatNews

2026-05-10 04:50:47

إنشاء الملخص قيد التقدم

وفقًا لمراقبة Beating، قامت شركة Sakana AI بالتعاون مع NVIDIA بفتح مصدر تنسيق البيانات النادرة المسمى TwELL ونواة التسريع المصاحبة، مما نجح في جعل وحدة معالجة الرسومات تتجاوز تلك الحسابات غير الفعالة «النتائج قريبة من الصفر» أثناء تشغيل النماذج الكبيرة. هذه الخطة، دون فقدان دقة النموذج، أدت إلى زيادة سرعة استنتاج H100 بنسبة تصل إلى 30%، وتسريع التدريب بنسبة تصل إلى 24%، وتوفير كبير في الذاكرة المؤقتة القصوى.

تستهلك طبقة التغذية الأمامية (FFN) في النماذج الكبيرة معظم المعلمات والقدرات الحسابية. ولكن في الواقع، عند توليد النصوص، يوجد أكثر من 80% من الخلايا العصبية في حالة «سبات» (القيمة التنشيطية قريبة من الصفر)، ولا تساهم في النتيجة النهائية على الإطلاق. إذا أمكن تخطي هذه الخلايا العصبية، فسيتم توفير قدر هائل من القدرة الحسابية. ومع ذلك، فإن وحدات معالجة الرسومات الحديثة بطبيعتها تتخصص في حساب المصفوفات الكثيفة المنتظمة، وإذا استخدمنا الطرق التقليدية لاختيار البيانات المفيدة المنتشرة، فإن تكلفة البحث والقراءة ذهابًا وإيابًا عن البيانات ستستهلك كل القدرة التي تم توفيرها.

يهدف تنسيق TwELL إلى كسر هذا السحر الصلب للأجهزة. فهو مصمم تمامًا وفقًا لمنطق التوازي لوحدة معالجة الرسومات: لا يجمع البيانات غير الصفرية عبر المناطق كما في الطرق التقليدية، بل يقسم البيانات إلى مربعات صغيرة (بلاطات) تتقن وحدة معالجة الرسومات التعامل معها. وبهذا، يمكن لنوى الحوسبة المحلية على وحدة معالجة الرسومات حزم البيانات المفيدة مباشرة، مما يلغي تمامًا عمليات القراءة والكتابة البطيئة للذاكرة العالمية، ويتكامل بشكل مثالي مع خط أنابيب التسريع في الشرائح الحديثة.

في اختبار على نموذج يحتوي على 1.5 مليار معلمة، يكفي إضافة بعض التنظيمات البسيطة أثناء التدريب لخفض نسبة الخلايا العصبية التي تحتاج إلى حساب فعلي إلى أقل من 2%، ولم تتأثر أداء سبع مهام فرعية. كما كشفت البيانات عن قاعدة: كلما زاد حجم المعلمات في النموذج، زادت الخلايا العصبية في حالة السبات (نسبة غير صفرية أقل بنسبة 38% في نموذج بـ 2 مليار معلمة مقارنة بنموذج بـ 500 مليون). هذا يعني أنه في المستقبل، مع السعي نحو نماذج أكبر حجمًا، ستوفر هذه التحسينات الموجهة للأجهزة الأساسية فوائد أداء ملحوظة أكثر.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GateSquareMayTradingShare
1.05M درجة الشعبية
#
BTCBackAbove80K
59.45M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
45.63K درجة الشعبية
#
JapanTokenizesGovernmentBonds
1.9M درجة الشعبية
#
#DailyPolymarketHotspot
871.95K درجة الشعبية

تثبيت

خريطة الموقع

Sakana AI تتعاون مع NVIDIA: تمكين وحدة معالجة الرسومات من تجاوز 80% من العمليات الحسابية غير الفعالة للنماذج الكبيرة، وتسريع استنتاج H100 بنسبة 30%

المواضيع الرائجة

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

تثبيت