AIMPACT предложил трёхшаговый метод превращения модели посттренировочного вывода в олимпиадного уровня решателя задач: дообучение с использованием обратной путаницы, двухэтапное усиленное обучение, расширение во время тестирования. В качестве основы для обучения SU-01 использована модель 30B-A3B, траектория превышает 100 тысяч токенов, достигая уровня золотой медали на соревнованиях IMO/USAMO/IPhO и других, а также демонстрируя обобщение научного мышления между областями. Источник: InFoQ

MeNews

2026-05-15 21:43:33

Генерация тезисов в процессе

AIMPACT сообщение, 16 мая (UTC+8), новая статья предлагает системный метод преобразования моделей пост-тренировочного вывода в олимпийского уровня решатели задач, и на основе этого метода обучена модель SU-01.
Этот метод включает три шага: сначала использование курса обратной путаницы для контролируемой дообучения с целью внедрения строгого поиска доказательств и самопроверки; затем расширение этих действий с помощью двухэтапного усиленного обучения (переход от обучения с подкреплением на основе проверяемых наград к обучению с доказательственным уровнем); наконец, повышение производительности за счет масштабирования во время тестирования.
Исследовательская команда применила метод к базовой модели 30B-A3B, использовав около 340 тысяч траекторий по 8K токенов для контролируемого дообучения, затем провела 200 шагов усиленного обучения, получив SU-01.
Эта модель способна стабильно рассуждать о сложных задачах, длина траекторий превышает 100 тысяч токенов, достигая уровня золотых медалей на соревнованиях IMO 2025/USAMO 2026 и IPhO 2024/2025, а также демонстрирует способность к обобщению в области научных рассуждений за пределами математики и физики.
(Источник: InFoQ)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GateSquareMayTradingShare
1.85M Популярность
#
CLARITYActPassesSenateCommittee
3.39M Популярность
#
IsraelStrikesIranBTCPlunges
46.92K Популярность
#
#DailyPolymarketHotspot
956.81K Популярность
#
BitcoinVShapedReversalBack
227.02M Популярность

Закреплено

Карта сайта

После обучения модель вывода SU-01 достигла золотого уровня в задачах олимпийского уровня

Популярные темы

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

Закреплено