من SFT إلى RL ثم إلى التوسيع في وقت الاختبار، ثلاث مراحل تتقدم بشكل تدريجي كأنها بناء مكعبات، دفعت نموذج صغير 30B للفوز بالميدالية الذهبية في IMO، المسار واضح بشكل مخيف

شاهد النسخة الأصلية
MeNews
نموذج الاستدلال بعد التدريب SU-01 يحقق أداءً ميداليًا في أسئلة المستوى الأولمبي
AIMPACT قدمت طريقة نظامية لتحويل نماذج الاستدلال بعد التدريب إلى حلّال مسابقات أولمبية من الطراز العالمي، تتكون من ثلاث خطوات: إجراء ضبط دقيق بالإشراف باستخدام دورة التشويش العكسي لإدخال البحث عن الإثبات والفحص الذاتي؛ ثم توسيعه عبر تعلّم معزز على مرحلتين؛ وأخيرًا تحسين الأداء من خلال التقييس أثناء الاختبار. تم تطبيقها على العمود الفقري 30B-A3B، باستخدام حوالي 340,000 مسار فرعي بمدى 8K، لإجراء ضبط دقيق بالإشراف، تلاه 200 خطوة من التعلم المعزز، للحصول على النموذج SU-01. يستطيع هذا النموذج إجراء استدلال مستقر على المسائل الصعبة، مع مسارات تتجاوز 100,000 رمز، وحقق مستوى ميدالية ذهبية في مسابقات مثل IMO و USAMO و IPhO، كما أظهر قدرة على تعميم الاستدلال العلمي عبر مجالات تتجاوز الرياضيات والفيزياء.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت