الوصفة المسبقة للتدريب 19.7 دقيقة مقابل 35.9 دقيقة، عشرة جولات من البحث تكفي، ويفرح حزب الكفاءة بشدة

شاهد النسخة الأصلية
MeNews
فريق معالجة اللغة الطبيعية في ستانفورد يعرض تقدمًا جديدًا في أبحاث الذكاء الاصطناعي الآلي
تقدم ستانفورد NLP في ICML 2026 عرضًا لتحويل التدريب المسبق والمتابعة لنماذج اللغة الكبيرة إلى بيئة تنفيذ من خلال محرك تنفيذ آلي، مع تحسين كفاءة البحث باستخدام ملاحظات التنفيذ. هناك طريقتان: البحث التطوري يتفوق على GRPO في مهام المتابعة (69.4% مقابل 48.0%)، ويجد الوصفات في مهام التدريب المسبق أسرع من nanoGPT (19.7 دقيقة مقابل 35.9 دقيقة)، وكلاهما يكتمل خلال عشر جولات من البحث؛ التعلم المعزز المستند إلى مكافأة التنفيذ عرضة لانهيار الأنماط، على الرغم من أنه يحسن المكافأة المتوسطة لكنه لا يرفع الحد الأقصى. يوجه هذا العمل البحث الآلي الموجه نحو التنفيذ.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت