AIMPACT يقترح طريقة من ثلاث خطوات لتحويل نموذج الاستدلال بعد التدريب إلى حل مسائل على مستوى الأولمبياد: التخصيص الدقيق من خلال دورة التشويش العكسي، التعلم المعزز ذو المرحلتين، والتوسيع أثناء الاختبار لتعزيز الأداء. تم تدريب SU-01 باستخدام 30B-A3B كقاعدة أساسية، مع مسار يزيد عن 100 ألف توكن، وحقق مستوى ميدالية ذهبية في مسابقات مثل IMO و USAMO و IPhO، وأظهر قدرة على التعميم في الاستدلال العلمي عبر مجالات متعددة. المصدر: InFoQ

MeNews

2026-05-15 21:43:33

إنشاء الملخص قيد التقدم

AIMPACT رسالة، 16 مايو (UTC+8)، قدمت ورقة بحثية جديدة نظامًا لتحويل نماذج الاستدلال بعد التدريب إلى حلال مسائل أولمبياد من مستوى عالمي، وتدريب نموذج SU-01 بناءً على هذا النهج.
يشمل هذا النهج ثلاث خطوات: أولاً، استخدام دورة الارتباك العكسي للتوجيه للإشراف على التعديل الدقيق، بهدف غرس سلوك البحث عن الإثبات الصارم والفحص الذاتي؛
ثم توسيع هذه السلوكيات من خلال التعلم المعزز ذو المرحلتين (الانتقال من التعلم المعزز بالمكافآت القابلة للتحقق إلى التعلم المعزز بمستوى الإثبات)؛
وأخيرًا، تحسين الأداء من خلال التوسيع أثناء الاختبار.
طبقت فريق البحث النهج على نموذج أساسي 30B-A3B، باستخدام حوالي 340,000 مسار من 8K رموز فرعية للإشراف على التعديل الدقيق، ثم أجروا 200 خطوة من التعلم المعزز، لينتجوا SU-01.
يستطيع النموذج إجراء استدلال مستقر على مسائل صعبة، مع طول مسار يتجاوز 100,000 رمز، وحقق مستوى ميدالية ذهبية في مسابقات مثل IMO 2025/USAMO 2026 و IPhO 2024/2025، وأظهر قدرة على التعميم في مجالات الاستدلال العلمي خارج الرياضيات والفيزياء.
(المصدر: InFoQ)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GateSquareMayTradingShare
1.85M درجة الشعبية
#
CLARITYActPassesSenateCommittee
3.39M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
46.92K درجة الشعبية
#
#DailyPolymarketHotspot
956.81K درجة الشعبية
#
BitcoinVShapedReversalBack
227.02M درجة الشعبية

مُثبت

خريطة الموقع

نموذج الاستدلال بعد التدريب SU-01 يحقق أداء الميدالية الذهبية في أسئلة المسابقات الدولية

المواضيع الرائجة

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

مُثبت