AIMPACT предложила системный метод преобразования моделей посттренировочного вывода в олимпийского уровня решатели задач, состоящий из трех этапов: с помощью курса обратной путаницы для контролируемой дообучения внедряет поиск доказательств и самопроверку; затем расширяет его двумя этапами усиленного обучения; при тестировании выполняет масштабирование для повышения эффективности. Применено к базе 30B-A3B, использовано около 340 тысяч суб-8K траекторий для контролируемого дообучения, затем 200 шагов RL, получена модель SU-01. Эта модель способна стабильно рассуждать о сложных задачах, траектории превышают 100 тысяч токенов, достигая уровня золотой медали на конкурсах IMO/USAMO/IPhO и других, а также демонстрирует способность к научному мышлению за пределами математики и физики.

MeNews

2026-05-26 18:44:37

Генерация тезисов в процессе

AIMPACT сообщение, 16 мая (UTC+8), новая статья предлагает системный метод преобразования моделей пост-тренировочного вывода в олимпийского уровня решатели задач, и на основе этого метода обучена модель SU-01. Этот метод включает три шага: сначала использование курса обратной путаницы для контролируемой дообучения с целью внедрения строгого поиска доказательств и самопроверки; затем расширение этих действий с помощью двухэтапного усиленного обучения (от обучения с вознаграждением, основанного на проверяемых результатах, до обучения на уровне доказательств); и, наконец, повышение производительности за счет масштабирования во время тестирования. Исследовательская команда применила метод к базовой модели 30B-A3B, используя около 340 тысяч траекторий по 8K токенов для контролируемого дообучения, после чего провела 200 шагов усиленного обучения, получив SU-01. Эта модель способна стабильно рассуждать о сложных задачах, длина траекторий превышает 100 тысяч токенов, достигая уровня золотых медалей на соревнованиях IMO 2025/USAMO 2026 и IPhO 2024/2025, а также демонстрирует способность к обобщению в области научных рассуждений за пределами математики и физики. (Источник: InFoQ)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

7 Лайков

Награда
7
6
2
Поделиться

комментарий

Добавить комментарий

NoSleepBridge

· 4ч назад

Может ли другая область скопировать этот подход после его дообучения?

Посмотреть ОригиналОтветить0

ExitLiquidityStan

· 4ч назад

Механизм самопроверки является ключевым, многие модели в этом недостаточны.

Посмотреть ОригиналОтветить0

NftsOutsideTheTidalLine

· 4ч назад

340000 треков загружено, RL всего 200 шагов, эффективность впечатляет

Посмотреть ОригиналОтветить0

PineNeedlesAndColdWind

· 4ч назад

Наконец-то кто-то считает доказательство поиска своей основной способностью, правильное направление

Посмотреть ОригиналОтветить0

MirrorPetals

· 4ч назад

Можно ли также заниматься физической олимпиадой? Эта способность к обобщению действительно неожиданна

Посмотреть ОригиналОтветить0

SudoSoul

· 4ч назад

IMO золотой уровень... в будущем соревнования, наверное, будут делиться на человеческую группу и группу ИИ.

Посмотреть ОригиналОтветить0

Популярные темы
Подробнее
#
StockTradingChallengeUpTo17000U
16.22M Популярность
#
USStrikesIran
9.32M Популярность
#
IsraelStrikesIranBTCPlunges
49.49K Популярность
#
GatePredictionMarketAddsSmartMoneyTracking
13.8M Популярность
#
InstitutionalCapitalRotatesFromBTCToHYPEAndXRP
14.33M Популярность

Закреплено

Карта сайта

После обучения модель вывода SU-01 достигла золотого уровня в олимпиадных задачах

Популярные темы

StockTradingChallengeUpTo17000U

USStrikesIran

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

InstitutionalCapitalRotatesFromBTCToHYPEAndXRP

Закреплено