تحذير من تعطل النموذج: مكافأة التعلم المعزز زادت ولكن الحد الأقصى لم يتغير، يجب التركيز على هذه النقطة

شاهد النسخة الأصلية
MeNews
فريق معالجة اللغة الطبيعية في ستانفورد يعرض التقدم الجديد في أبحاث الذكاء الاصطناعي الآلي
تقدم ستانفورد NLP في ICML 2026 عرضًا لتحويل التدريب المسبق والمتابعة لنماذج اللغة الكبيرة إلى بيئة تنفيذ من خلال محرك تنفيذ آلي، مع تحسين كفاءة البحث باستخدام ردود الفعل من التنفيذ. هناك طريقتان: البحث التطوري يتفوق على GRPO في مهام المتابعة (69.4% مقابل 48.0%)، ويجد الوصفات في مهام التدريب المسبق أسرع من nanoGPT (19.7 دقيقة مقابل 35.9 دقيقة)، وكلاهما يتم خلال عشرة جولات من البحث؛ التعلم المعزز المستند إلى مكافأة التنفيذ عرضة لانهيار النمط، على الرغم من أنه يزيد من المتوسط ​​الجوائز لكنه لا يحسن الحد الأقصى. يوجه هذا العمل البحث الآلي الموجه نحو التنفيذ.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت