AIMPACT пропонує трьохетапний підхід для перетворення моделей після тренування у рішення рівня олімпіад: мікротюнінг за допомогою оберненої невпевненості, двоетапне посилене навчання, розширення під час тестування для покращення. Використовуючи 30B-A3B як основу для тренування SU-01, траєкторія перевищує 100 тисяч токенів, досягаючи рівня золотої медалі на змаганнях IMO/USAMO/IPhO та демонструючи здатність до міждисциплінарного наукового логічного мислення. Джерело: InFoQ

MeNews

2026-05-15 21:43:33

Генерація анотацій у процесі

AIMPACT повідомлення, 16 травня (UTC+8), опубліковано нову статтю, яка пропонує системний підхід до перетворення моделей після тренування для логічних висновків у олімпійські рівні розв’язувачів задач, а також на основі цього методу тренує модель SU-01. Цей підхід складається з трьох кроків: спочатку використовується курс зворотної плутаності для керованого тонкого налаштування, щоб впровадити строгий пошук доказів та самоперевірку; потім ці поведінки розширюються за допомогою двоетапного підкріпленого навчання (від підкріпленого навчання з підтверджувальними нагородами до підкріпленого навчання на рівні доказів); нарешті, під час тестування застосовується масштабування для підвищення продуктивності. Команда дослідження застосувала цей метод до базової моделі 30B-A3B, використовуючи близько 340 000 траєкторій з 8 тисячами токенів для керованого тонкого налаштування, а потім провела 200 кроків підкріпленого навчання, отримавши SU-01. Ця модель здатна стабільно логічно розв’язувати складні задачі, з довжиною траєкторії понад 100 000 токенів, досягаючи рівня золотої медалі на змаганнях IMO 2025/USAMO 2026 та IPhO 2024/2025, а також демонструє здатність до генералізації у галузі наукових міркувань поза межами математики та фізики. (Джерело: InFoQ)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateSquareMayTradingShare
1.85M Популярність
#
CLARITYActPassesSenateCommittee
3.39M Популярність
#
IsraelStrikesIranBTCPlunges
46.92K Популярність
#
#DailyPolymarketHotspot
956.81K Популярність
#
BitcoinVShapedReversalBack
227.02M Популярність

Закріплено

карта сайту

Після тренування модель виведення SU-01 досягає золотої медалі у завданнях рівня олімпіади

Популярні теми

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

Закріплено