AIMPACT رسالة، 16 مايو (UTC+8)، قدمت ورقة بحثية جديدة نظامًا لتحويل نماذج الاستدلال بعد التدريب إلى حلال مسائل أولمبياد من مستوى عالمي، وتدريب نموذج SU-01 بناءً على هذا النهج.
يشمل هذا النهج ثلاث خطوات: أولاً، استخدام دورة الارتباك العكسي للتوجيه بالإشراف من أجل تربية سلوك البحث عن الإثبات الصارم والفحص الذاتي؛
ثم توسيع هذه السلوكيات من خلال التعلم المعزز ذو المرحلتين (الانتقال من التعلم المعزز بالمكافآت القابلة للتحقق إلى التعلم المعزز بمستوى الإثبات)؛
وأخيرًا، تحسين الأداء من خلال التوسيع أثناء الاختبار.
طبقت فريق البحث النهج على نموذج أساسي 30B-A3B، باستخدام حوالي 340,000 مسار من 8K رموز فرعية للإشراف، ثم أجروا 200 خطوة من التعلم المعزز، مما أدى إلى الحصول على SU-01.
يمكن لهذا النموذج إجراء استدلال مستقر على مسائل صعبة، مع طول مسار يتجاوز 100,000 رمز، وحقق مستوى ميدالية ذهبية في مسابقات مثل IMO 2025/USAMO 2026 و IPhO 2024/2025، وأظهر قدرة على التعميم في مجالات الاستدلال العلمي خارج الرياضيات والفيزياء.
(المصدر: InFoQ)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 11

أعجبني
11
11
2
مشاركة

تعليق

إضافة تعليق

SeaSaltMintCandy

· منذ 4 س

هل لاسم SU-01 معنى معين، أم أنه مجرد اختيار عشوائي؟

شاهد النسخة الأصليةرد0

StainedGlassSolarArray

· منذ 5 س

بعد عملية التدريب والتحول، من المتوقع أن تتبع المختبرات الأخرى هذا النهج بسرعة كبيرة

شاهد النسخة الأصليةرد0

GateUser-d2929483

· منذ 5 س

إذا كانت هذه الوظيفة حقيقية، فسيتم رفع سعر بيانات مسابقة الأسئلة

شاهد النسخة الأصليةرد0

StopRaisingGasFees.

· منذ 5 س

هل يمكن لـ 200 خطوة من التعلم المعزز أن تؤدي إلى التقارب؟ أم أنها مجرد رقم معلن؟

شاهد النسخة الأصليةرد0

MetalFrameBookPageCross

· منذ 5 س

ماذا تعني بالتحديد التوسعة ذات المرحلتين في التعلم المعزز، هل هناك تفاصيل؟

شاهد النسخة الأصليةرد0

GateUser-7a050ee5

· منذ 5 س

حتى يتم إصدار مصدر مفتوح أو تقرير فني مفصل، سأضع علامة مؤقتة أولاً

شاهد النسخة الأصليةرد0

GateUser-f4b3df7a

· منذ 5 س

كيف يتم تنفيذ آلية الفحص الذاتي، هل هناك هدف تدريب منفصل لها؟

شاهد النسخة الأصليةرد0

GateUser-e3701961

· منذ 5 س

هل تحسين المقياس أثناء الاختبار هو من تقنية التوافق الذاتي أم من تقنيات أخرى؟

شاهد النسخة الأصليةرد0

LittleBitcoinInTheReflection

· منذ 5 س

هل يمكن لمقياس 30B-A3B أن يحقق ذلك، فالكفاءة أعلى بكثير من GPT-4، أليس كذلك؟

شاهد النسخة الأصليةرد0

HalfLifeHodler

· منذ 5 س

القدرة على التعميم عبر المجالات هي الأمر الأكثر جدارة بالاهتمام، لا تدعها تكون مجرد تكرار للانحياز على مقياس الأداء

شاهد النسخة الأصليةرد0

عرض المزيد

المواضيع الرائجة
عرض المزيد
#
StockTradingChallengeUpTo17000U
16.23M درجة الشعبية
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
817.69K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
49.57K درجة الشعبية
#
GatePredictionMarketAddsSmartMoneyTracking
13.2M درجة الشعبية
#
MicronMarketCapBreaks1Trillion
36.87K درجة الشعبية

مُثبت

خريطة الموقع

نموذج الاستدلال بعد التدريب SU-01 يحقق أداءً ميداليًا في أسئلة المستوى الأولمبي

المواضيع الرائجة

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

مُثبت