نظام معالجة اللغة الطبيعية في ستانفورد جعل عملية التدريب بالكامل تعتمد على البيئة، وربما لن يحتاج الأشخاص لمراقبة ضبط المعلمات في المستقبل

شاهد النسخة الأصلية
MeNews
فريق معالجة اللغة الطبيعية في ستانفورد يعرض تقدمًا جديدًا في أبحاث الذكاء الاصطناعي الآلي
نُظم ستانفورد لمعالجة اللغة الطبيعية في ICML 2026 عرضت تحويل التدريب المسبق للنماذج اللغوية الكبيرة وما بعد التدريب إلى بيئة تنفيذ من خلال محرك تنفيذ آلي، مع تحسين كفاءة البحث باستخدام ملاحظات التنفيذ. هناك طريقتان: البحث التطوري يتفوق على GRPO في مهام ما بعد التدريب (69.4% مقابل 48.0%)، كما أن الوصفات التي تم العثور عليها في مهام التدريب المسبق أسرع من nanoGPT (19.7 دقيقة مقابل 35.9 دقيقة)، وكلاهما يكتمل خلال عشرة جولات من البحث؛ التعلم المعزز المستند إلى مكافأة التنفيذ عرضة لانهيار النمط، على الرغم من أنه يحسن المكافأة المتوسطة لكنه لا يرفع الحد الأقصى. هذا العمل يوجه البحث الآلي الموجه نحو التنفيذ.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت