دورة الالتباس العكسي + التعلم المعزز ذو المرحلتين + التوحيد المقياسي أثناء الاختبار، عند تطبيق هذا المزيج، تم كسر السقف الأعلى لنموذج التدريب والاستنتاج اللاحق مرة أخرى.

شاهد النسخة الأصلية
MeNews
نموذج الاستدلال بعد التدريب SU-01 يحقق أداء الميدالية الذهبية في أسئلة المستوى الأولمبي
تقدم AIMPACT منهجية نظامية لتحويل نماذج الاستدلال بعد التدريب إلى حلال مسابقات أولمبية، تتكون من ثلاث خطوات: إجراء ضبط دقيق بالإشراف باستخدام دورة الارتباك العكسي لتعليم البحث عن الإثبات والفحص الذاتي؛ ثم توسيعه من خلال تعلّم معزز على مرحلتين؛ وأخيرًا تحسين الأداء من خلال التقييس أثناء الاختبار. تم تطبيقها على نموذج 30B-A3B الأساسي، باستخدام حوالي 340,000 مسار فرعي 8K للإشراف الدقيق، ثم 200 خطوة من التعلم المعزز، للحصول على النموذج SU-01. يستطيع هذا النموذج إجراء استدلال مستقر على المسائل الصعبة، مع مسارات تتجاوز 100,000 رمز، وحقق مستوى ميدالية ذهبية في مسابقات مثل IMO و USAMO و IPhO، كما أظهر قدرة على تعميم الاستدلال العلمي عبر مجالات تتجاوز الرياضيات والفيزياء.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت