انهيار النمط، من يجب أن يكون قد وقع في هذا الفخ ليس بالقليل، وأخيرًا هناك من تحدث عنه بشكل منهجي.

شاهد النسخة الأصلية
MeNews
فريق معالجة اللغة الطبيعية في ستانفورد يعرض التقدم الجديد في أبحاث الذكاء الاصطناعي الآلي
تقدم ستانفورد NLP في ICML 2026 عرضًا لتحويل التدريب المسبق والنقلي لنماذج اللغة الكبيرة إلى بيئة تنفيذ من خلال محرك تنفيذ آلي، مع استخدام ردود الفعل من التنفيذ لتعزيز كفاءة البحث. هناك طريقتان: البحث التطوري يتفوق على GRPO في مهام ما بعد التدريب (69.4% مقابل 48.0%)، ويجد الوصفات في مهام التدريب المسبق أسرع من nanoGPT (19.7 دقيقة مقابل 35.9 دقيقة)، وكلاهما يكتمل خلال عشرة جولات من البحث؛ التعلم المعزز المستند إلى مكافأة التنفيذ عرضة لانهيار النمط، على الرغم من أنه يزيد من المتوسط ​​المكافأة إلا أنه لا يحسن الحد الأقصى. يوجه هذا العمل البحث الآلي الموجه نحو التنفيذ.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت