نموذج الاستدلال بعد التدريب SU-01 يحقق أداءً ميداليًا في أسئلة المستوى الأولمبي

robot
إنشاء الملخص قيد التقدم
AIMPACT رسالة، 16 مايو (UTC+8)، قدمت ورقة بحثية جديدة نظامًا لتحويل نماذج الاستدلال بعد التدريب إلى حلال مسائل أولمبياد من مستوى عالمي، وتدريب نموذج SU-01 بناءً على هذا النهج.
يشمل هذا النهج ثلاث خطوات: أولاً، استخدام دورة الارتباك العكسي للتوجيه للإشراف على التعديلات الدقيقة، بهدف غرس سلوك البحث عن الإثبات الصارم والفحص الذاتي؛
ثم توسيع هذه السلوكيات من خلال التعلم المعزز ذو المرحلتين (الانتقال من التعلم المعزز بالمكافآت القابلة للتحقق إلى التعلم المعزز بمستوى الإثبات)؛
وأخيرًا، تحسين الأداء من خلال التوسيع أثناء الاختبار.
طبقت فريق البحث النهج على نموذج أساسي 30B-A3B، باستخدام حوالي 340,000 مسار من 8K رموز فرعية للإشراف على التعديلات الدقيقة، ثم أجروا 200 خطوة من التعلم المعزز، ليحصلوا على SU-01.
يمكن لهذا النموذج إجراء استدلال مستقر على مسائل صعبة، مع طول مسار يتجاوز 100,000 رمز، وحقق مستوى ميدالية ذهبية في مسابقات مثل IMO 2025/USAMO 2026 و IPhO 2024/2025، وأظهر قدرة على التعميم في مجالات الاستدلال العلمي خارج الرياضيات والفيزياء.
(المصدر: InFoQ)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 10
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
GateUser-46c777d0
· منذ 2 س
34万 مسار تم إدخالها، وRL فقط قام بـ 200 خطوة، وكفاءة البيانات أعلى مما كان متوقعًا
شاهد النسخة الأصليةرد0
CandlewickKid
· منذ 2 س
هل يمكن تعميم المسابقات الفيزيائية أيضًا؟ أريد أن أرى أدائها في أسئلة تصميم التجارب
شاهد النسخة الأصليةرد0
RetroRadioWaves
· منذ 2 س
هل يشير تحسين القياس أثناء الاختبار إلى حساب القياس أثناء وقت الاختبار؟
شاهد النسخة الأصليةرد0
ReflectiveChainShadow
· منذ 2 س
هل من المثير للاهتمام أن تفاصيل مسار子8K، هل هو تقسيم الإثبات الطويل إلى أجزاء صغيرة لتغذيته؟
شاهد النسخة الأصليةرد0
ByteSizedAlpha
· منذ 3 س
ادعاء التعميم عبر المجالات كبير جدًا، انتظر حالة عملية محددة.
شاهد النسخة الأصليةرد0
StainedGlassSolarArray
· منذ 3 س
قد تكون القدرة على الفحص الذاتي هي الأهم، فهي أكثر أهمية بكثير من مجرد توليد الإجابات
شاهد النسخة الأصليةرد0
StillHereAfterTheRugPull
· منذ 3 س
هل تسمية 30B-A3B تعني أن A3B هو معلمة التفعيل؟
شاهد النسخة الأصليةرد0
GateUser-52241ed6
· منذ 3 س
هل ستقسم المسابقات في المستقبل إلى فئة للبشر وفئة للذكاء الاصطناعي بعد الآن؟
شاهد النسخة الأصليةرد0
GateUser-e72657f0
· منذ 3 س
تصميم دورة الالتباس العكسي رائع جدًا، حيث يجعل النموذج يتعلم الشك في ذاته أولاً
شاهد النسخة الأصليةرد0
GateUser-d2b4d9c6
· منذ 3 س
سلسلة استنتاجات من 100,000 رمز، لم يعد الأمر مجرد حل مسائل بل أصبح كتابة بحث علمي
شاهد النسخة الأصليةرد0
عرض المزيد
  • مُثبت