وحش الاستنتاجات الذي تغذى على 340,000 مسار، اسم SU-01 لا يُطلق عليه إلا بشكل متواضع

شاهد النسخة الأصلية
MeNews
نموذج الاستدلال بعد التدريب SU-01 يحقق أداءً ميداليًا في أسئلة المستوى الأولمبي
AIMPACT قدمت طريقة نظامية لتحويل نماذج الاستدلال بعد التدريب إلى حلوليك أولمبي، تتكون من ثلاث خطوات: إجراء ضبط دقيق بالإشراف باستخدام دورة التشكك العكسي لتعزيز البحث عن الإثبات والفحص الذاتي؛ ثم توسيعه عبر مرحلتين من التعلم المعزز؛ وأخيرًا تحسين الأداء من خلال التقييس أثناء الاختبار. تم تطبيقها على العمود الفقري 30B-A3B، باستخدام حوالي 340,000 مسار فرعي 8K للإشراف الدقيق، ثم 200 خطوة من التعلم المعزز، للحصول على النموذج SU-01. يستطيع هذا النموذج إجراء استدلال مستقر على المسائل الصعبة، مع مسارات تتجاوز 100,000 رمز، وحقق مستوى ميدالية ذهبية في مسابقات مثل IMO و USAMO و IPhO، كما أظهر قدرة على تعميم الاستدلال العلمي عبر مجالات غير الرياضيات والفيزياء.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت