AIMPACT قدمت طريقة نظامية لتحويل نماذج الاستدلال بعد التدريب إلى حلال مسابقات أولمبية، تتكون من ثلاث خطوات: إجراء ضبط دقيق بالإشراف باستخدام دورة استغراب عكسي لدمج البحث عن الإثبات والفحص الذاتي؛ ثم توسيعه عبر تعلّم معزز على مرحلتين؛ وأخيرًا تحسين الأداء من خلال التقييس أثناء الاختبار. تم تطبيقها على نموذج 30B-A3B الأساسي، باستخدام حوالي 340,000 مسار فرعي بمدى 8K، لإجراء ضبط دقيق بالإشراف، ثم 200 خطوة من التعلم المعزز، للحصول على النموذج SU-01. هذا النموذج قادر على الاستدلال المستقر على المسائل الصعبة، مع مسارات تتجاوز 100,000 رمز، وحقق مستوى ميدالية ذهبية في مسابقات مثل IMO و USAMO و IPhO، كما أظهر قدرة على تعميم الاستدلال العلمي عبر مجالات تتجاوز الرياضيات والفيزياء.

MeNews

2026-05-26 22:37:22

إنشاء الملخص قيد التقدم

AIMPACT رسالة، 16 مايو (UTC+8)، قدمت ورقة بحثية جديدة نظامًا لتحويل نماذج الاستدلال بعد التدريب إلى حلال مسائل أولمبي، وتم تدريب نموذج SU-01 بناءً على هذا النهج.
يشمل هذا النهج ثلاث خطوات: أولاً، استخدام دورة الارتباك العكسي للإشراف الدقيق لضمان البحث عن الإثبات الصارم والسلوك الذاتي للفحص؛
ثم توسيع هذه السلوكيات من خلال التعلم المعزز ذو المرحلتين (الانتقال من التعلم المعزز بالمكافآت القابلة للتحقق إلى التعلم المعزز بمستوى الإثبات)؛
وأخيرًا، تحسين الأداء من خلال التوسيع أثناء الاختبار.
طبقت فريق البحث النهج على نموذج أساسي 30B-A3B، باستخدام حوالي 340,000 مسار من 8K رموز فرعية للإشراف الدقيق، ثم أجروا 200 خطوة من التعلم المعزز، ونتج عن ذلك نموذج SU-01.
يستطيع النموذج إجراء استدلال مستقر على مسائل صعبة، مع طول مسار يتجاوز 100,000 رمز، وحقق مستوى الميداليات الذهبية في مسابقات مثل IMO 2025/USAMO 2026 و IPhO 2024/2025، وأظهر قدرة على التعميم في مجالات الاستدلال العلمي خارج الرياضيات والفيزياء.
(المصدر: InFoQ)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 7

أعجبني
7
8
إعادة النشر
مشاركة

تعليق

إضافة تعليق

SucculentCross-Section

· منذ 1 س

هل أنت من مستوى الميدالية الذهبية في IMO؟ انتظر إعادة الإنتاج المفتوحة المصدر أولاً

شاهد النسخة الأصليةرد0

DeepBlueStakingStone

· منذ 2 س

34万 سجل بيانات المسارات في الواقع ليست مبالغة، لكن تصفية الجودة ربما تكون مرهقة جدًا

شاهد النسخة الأصليةرد0

BlackVelvetKeychain

· منذ 7 س

تصميم دورة الالتباس العكسي هذا ممتع جدًا، حيث قام بترميز خبرة البشر في حل التمارين بداخله

شاهد النسخة الأصليةرد0

OrdersPlacedBeforeTheStorm

· منذ 7 س

آلية الفحص الذاتي إذا كانت مرئية، سيكون تصحيح الأخطاء في عملية الاستنتاج أسهل بكثير

شاهد النسخة الأصليةرد0

VinesCoiledIntoGeometricShapes

· منذ 7 س

المسابقات الفيزيائية أيضًا مغطاة، الآن طلاب الفيزياء لديهم مدرب AI مرافق

شاهد النسخة الأصليةرد0

BridgeAnxiety

· منذ 7 س

A3B是什么架构，有懂哥展开说说吗

رد0

GateUser-ecf4759e

· منذ 7 س

اختيار دقة مسار子8K له أهمية، فطولها الزائد قد يتسبب في انفجار تدرج الانتشار

شاهد النسخة الأصليةرد0

FudAlsoNeedsAnImage

· منذ 8 س

العبارة الأخيرة "الاستنتاج العلمي العام" جعلتني أفكر في مفارقة بولاني — نحن نعرف أكثر مما نعبر عنه، هل يمكن للذكاء الاصطناعي الآن الوصول إلى تلك الجزء غير المصرح به من الحدس؟

شاهد النسخة الأصليةرد0

المواضيع الرائجة
عرض المزيد
#
StockTradingChallengeUpTo17000U
16.23M درجة الشعبية
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
817.65K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
49.57K درجة الشعبية
#
GatePredictionMarketAddsSmartMoneyTracking
13.2M درجة الشعبية
#
MicronMarketCapBreaks1Trillion
36.87K درجة الشعبية

مُثبت

خريطة الموقع

نموذج الاستدلال بعد التدريب SU-01 يحقق أداءً ميداليًا في أسئلة المستوى الأولمبي

المواضيع الرائجة

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

مُثبت