تسريع التدريب المسبق بمقدار 2 إلى 3 أضعاف، خطة Nous الجديدة TST تقع في جدل "تصادم"

robot
إنشاء الملخص قيد التقدم

أخبار ME، في 14 مايو (بتوقيت UTC+8)، وفقًا لمراقبة 动察 Beating، أصدرت شركة Nous Research خطة تدريب جديدة لنموذج كبير تُسمى تراكب الكلمات (TST). تتيح هذه الخطة تقليل وقت التدريب بمقدار 2 إلى 3 مرات لنفس كمية الحسابات من خلال حزم وضغط الكلمات المجاورة قبل التدريب. يتكون TST من مرحلتين. في 20% إلى 40% الأولى من التدريب، لا يقرأ النموذج الكلمات بشكل فردي، بل يدمج الكلمات المجاورة ويأخذ متوسطها كمدخل، ويتوقع في النهاية الكلمات التي ستحتوي عليها الحزمة التالية (دون اعتبار الترتيب الداخلي). بعد ذلك، يعود النموذج إلى التوقع التقليدي للكلمة التالية. نظرًا لعدم تعديل الهيكل الأساسي، فإن النموذج الناتج يكون مطابقًا تمامًا للنموذج العادي أثناء الاستدلال. تم التحقق من صحة هذه الطريقة على نموذج MoE بأقصى 100 مليار معلمة. جوهر هذه الخطة هو “استخدام البيانات مقابل القوة الحسابية”، حيث يتم تقليل وقت الحساب من خلال استهلاك أسرع للبيانات. إذا نفدت النصوص عالية الجودة في المستقبل، فقد تصبح خاصية تسريع استهلاك البيانات نقطة ضعف. بالإضافة إلى ذلك، بعد ساعات من نشر الورقة، أشار بعض القراء إلى أن آلية TST تشبه بشكل كبير العمل السابق “Beyond Next Token Prediction” الذي نُشر في 2024. ثم اعترف فريق المؤلفين في Hugging Face بأن هذا هو “تطابق غير محظوظ في البحث (convergent research)”، ووعدوا بتحديث الورقة لإضافة الإشارة إليه. (المصدر: BlockBeats)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت