نموذج الاستدلال بعد التدريب SU-01 يحقق أداءً ميداليًا في أسئلة المستوى الأولمبي

robot
إنشاء الملخص قيد التقدم
AIMPACT رسالة، 16 مايو (UTC+8)، قدمت ورقة بحثية جديدة نظامًا لتحويل نماذج الاستدلال بعد التدريب إلى حلال مسائل أولمبياد من مستوى عالمي، وتدريب نموذج SU-01 بناءً على هذا النهج.
يشمل هذا النهج ثلاث خطوات: أولاً، استخدام دورة الارتباك العكسي للتوجيه للإشراف على التعديل الدقيق، بهدف غرس سلوك البحث عن الإثبات الصارم والفحص الذاتي؛
ثم توسيع هذه السلوكيات من خلال التعلم المعزز ذو المرحلتين (الانتقال من التعلم المعزز بالمكافآت القابلة للتحقق إلى التعلم المعزز بمستوى الإثبات)؛
وأخيرًا، تحسين الأداء من خلال التوسيع أثناء الاختبار.
طبقت فريق البحث النهج على نموذج أساسي 30B-A3B، باستخدام حوالي 340,000 مسار من 8K رموز فرعية للإشراف على التعديل الدقيق، ثم أجروا 200 خطوة من التعلم المعزز، لينتجوا SU-01.
يمكن لهذا النموذج إجراء استدلال مستقر على مسائل صعبة، مع مسارات تتجاوز 100,000 رمز، وحقق مستوى ميدالية ذهبية في مسابقات مثل IMO 2025/USAMO 2026 و IPhO 2024/2025، وأظهر قدرة على التعميم في مجالات الاستدلال العلمي خارج الرياضيات والفيزياء.
(المصدر: InFoQ)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 6
  • 2
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
NoSleepBridge
· منذ 4 س
هل يمكن للمجالات الأخرى أن تقتبس من منهجية التحول بعد التدريب هذه؟
شاهد النسخة الأصليةرد0
ExitLiquidityStan
· منذ 4 س
آلية الفحص الذاتي هي المفتاح، والكثير من النماذج تفتقر إليها
شاهد النسخة الأصليةرد0
NftsOutsideTheTidalLine
· منذ 4 س
34万 مسار تم تغذيتها، وRL فقط 200 خطوة، الكفاءة فعلاً مميزة
شاهد النسخة الأصليةرد0
PineNeedlesAndColdWind
· منذ 4 س
أخيرًا أصبح هناك من يعتبر إثبات البحث القدرة الأساسية، والاتجاه صحيح
شاهد النسخة الأصليةرد0
MirrorPetals
· منذ 4 س
هل يمكنك أيضًا تنظيم مسابقة الفيزياء؟ حقًا القدرة على التعميم مفاجئة حقًا
شاهد النسخة الأصليةرد0
SudoSoul
· منذ 4 س
مستوى الميدالية الذهبية في IMO... هل ستقسم المسابقات في المستقبل إلى فئة للبشر وفئة للذكاء الاصطناعي؟
شاهد النسخة الأصليةرد0
  • مُثبت