ذكرت التقارير أن شركة Nous Research اقترحت TST: حيث يتم تجميع الكلمات المجاورة في بداية التدريب وأخذ متوسط المدخلات، في المرحلة الأولى من 20-40% لا يتم قراءة الكلمات بشكل فردي، بل يتم التنبؤ بالكلمات المجمعة، ثم يتم استعادة التنبؤ التقليدي للكلمة التالية. الهيكل الأساسي لم يتغير، وتم التحقق من ذلك على نموذج MoE ب100 مليار معلمة، حيث يمكن تقليل وقت التدريب بمقدار 2-3 مرات، وهو نوع من تحويل البيانات إلى قوة حسابية. إذا استُهلك النص عالي الجودة، فقد تصبح الاعتمادية على البيانات نقطة ضعف. يتشابه بشكل كبير مع 《Beyond Next Token Prediction》، وهو بحث متقارب، وسيتم إضافة مرجع لذلك.

MeNews

2026-05-17 04:00:22

إنشاء الملخص قيد التقدم

أخبار ME، في 14 مايو (بتوقيت UTC+8)، وفقًا لمراقبة 动察 Beating، أصدرت شركة Nous Research خطة تدريب جديدة لنموذج كبير تُسمى تراكب الكلمات (TST). تتيح هذه الخطة تقليل وقت التدريب بمقدار 2 إلى 3 مرات لنفس كمية الحسابات من خلال حزم وضغط الكلمات المجاورة قبل التدريب. يتكون TST من مرحلتين. في 20% إلى 40% الأولى من التدريب، لا يقرأ النموذج الكلمات بشكل فردي، بل يدمج الكلمات المجاورة ويأخذ متوسطها كمدخل، ويتوقع في النهاية الكلمات التي ستحتوي عليها الحزمة التالية (دون اعتبار الترتيب الداخلي). بعد ذلك، يعود النموذج إلى التوقع التقليدي للكلمة التالية. نظرًا لعدم تعديل الهيكل الأساسي، فإن النموذج الناتج يكون مطابقًا تمامًا للنموذج العادي أثناء الاستدلال. تم التحقق من صحة هذه الطريقة على نموذج MoE بأقصى 100 مليار معلمة. جوهر هذه الخطة هو “استخدام البيانات مقابل القوة الحسابية”، حيث يتم تقليل وقت الحساب من خلال استهلاك أسرع للبيانات. إذا نفدت النصوص عالية الجودة في المستقبل، فقد تصبح خاصية تسريع استهلاك البيانات نقطة ضعف. بالإضافة إلى ذلك، بعد ساعات من نشر الورقة، أشار بعض القراء إلى أن آلية TST تشبه بشكل كبير العمل السابق “Beyond Next Token Prediction” الذي نُشر في 2024. ثم اعترف فريق المؤلفين في Hugging Face بأن هذا هو “تطابق غير محظوظ في البحث (convergent research)”، ووعدوا بتحديث الورقة لإضافة الإشارة إليه. (المصدر: BlockBeats)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GateSquareMayTradingShare
1.94M درجة الشعبية
#
CLARITYActPassesSenateCommittee
3.58M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
47.35K درجة الشعبية
#
#DailyPolymarketHotspot
975.98K درجة الشعبية
#
BitcoinVShapedReversalBack
227.15M درجة الشعبية

مُثبت

خريطة الموقع

تسريع التدريب المسبق بمقدار 2 إلى 3 أضعاف، خطة Nous الجديدة TST تقع في جدل "تصادم"

المواضيع الرائجة

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

مُثبت