نحن نفتح مصدر Lighthouse Attention: وحدة B200 واحدة تسرع من 512K بمقدار 17 مرة

robot
إنشاء الملخص قيد التقدم
AIMPACT رسالة، 16 مايو (UTC+8)، وفقًا لمراقبة 动察 Beating، قامت شركة Nous Research بفتح مصدر آلية التدريب المسبق ذات السياق الطويل Lighthouse Attention. عند معالجة نص بطول 512 ألف على بطاقة رسومات B200 واحدة، كانت سرعة الحساب لهذا الحل أسرع بحوالي 17 مرة من الآلية التقليدية، وحققت تسريعًا من 1.4 إلى 1.7 مرة في التدريب الشامل عند طول 98 ألف. تتطلب الآلية التقليدية الانتباه حساب علاقات كل كلمة مع الأخرى، ومع زيادة طول النص، يزداد استهلاك القدرة الحسابية بشكل تربيعي. تستخدم تقنية Lighthouse Attention نهج التصفية المبدئية ثم الحساب الدقيق. فهي تقوم أولاً بمراجعة ملخصات النص المضغوطة بسرعة على مستويات مختلفة، وتختار القطع الأساسية عبر تقييمها، ثم تجمعها لتكوين نص قصير، وتُعطى مباشرة لمعاملات عالية الكفاءة مثل FlashAttention للمعالجة. نظرًا لأن منطق التصفية تم فصله تمامًا عن النواة، فإن المطورين يتجنبون الحاجة لكتابة رمز منخفض المستوى يدويًا، ولا يضيفون هدف تدريب إضافي. غالبًا ما يكون للحلول المعجلة المماثلة آثار جانبية، حيث أن النموذج يتعود على القراءة السريعة، مما يؤدي إلى فقدان قدرته على القراءة الدقيقة لكل كلمة. لتجنب هذا الفخ، جعل فريق التطوير النموذج يعمل في وضع التسريع لإنهاء الجزء الأكبر من العملية، ثم يعود مؤقتًا إلى حساب الانتباه الكامل التقليدي في نهاية التدريب للتكيف. في الاختبارات على نموذج بحجم 5.3 مليار معلمة، وتدريب على 500 مليار رمز، لم يُسرع فقط وقت التدريب بشكل كبير، بل تفوق أداؤه النهائي على النسخة الأساسية التي تم تدريبها بالكامل باستخدام الطريقة التقليدية. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 9
  • 2
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
PartiallyMeltedIceCream
· منذ 1 س
زيادة السرعة بمقدار 17 مرة قد تكون مبالغ فيها، لكن 98 ألف فقط 1.4-1.7 مرة، يبدو أن الأرباح تزداد مع طول المدة بشكل واضح أكثر.
شاهد النسخة الأصليةرد0
ACalmnessWithAHintOfPomelo
· منذ 1 س
تلخيص متعدد المستويات لنص قصير ثم إرساله إلى FlashAttention، هذه الحيلة الهندسية رائعة
شاهد النسخة الأصليةرد0
GateUser-8ca669fd
· منذ 2 س
مسابقة السياق الطويل تدخل مرحلة تحسين الهندسة، أكثر إثارة من معلمات التجميع
شاهد النسخة الأصليةرد0
TidalShell
· منذ 2 س
تم تجاوز الخط الأساسي التقليدي بشكل غير متوقع، كنت أعتقد أن التسريع سيضحي بالجودة دائمًا
شاهد النسخة الأصليةرد0
GateUser-318a7dc8
· منذ 2 س
يمكن لـ 5.3 مليار معلمة فقط التحقق، ويمكن للفريق الصغير أيضًا المتابعة.
شاهد النسخة الأصليةرد0
GateUser-d6fb8ff1
· منذ 2 س
عندما يتم إصدار الكود، اختبر مدى قدرة بطاقة 4090 الخاصة بي على تحمل كم من K
شاهد النسخة الأصليةرد0
Glass-HeartMarketMaker
· منذ 2 س
إلغاء هدف التدريب الإضافي مهم جدًا، وإلا فلن يتمكن أحد من تدريبه حتى لو تم فتح المصدر
شاهد النسخة الأصليةرد0
OrderbookOtter
· منذ 2 س
اسم "Lighthouse" جيد، يضيء النقاط المهمة أولاً ثم يتفحص بالتفصيل
شاهد النسخة الأصليةرد0
TokenTinkerTao
· منذ 2 س
بطاقة B200 واحدة بسعة 512 كيلوبايت، فيما بعد ستنخفض تكلفة تشغيل المستندات الطويلة بشكل فردي باستخدام RAG
شاهد النسخة الأصليةرد0
عرض المزيد
  • مُثبت