AIMPACT предложила системный метод преобразования моделей посттренировочного вывода в олимпийский уровень решатели задач, состоящий из трех этапов: с помощью курса обратной путаницы для supervise fine-tuning внедряет поиск доказательств и самопроверку; затем расширяет его двумя этапами усиленного обучения; при тестировании дополнительно масштабирует улучшение. На базе 30B-A3B backbone, используя около 340 тысяч суб-8K траекторий для supervise fine-tuning, затем 200 шагов RL, получена модель SU-01. Эта модель способна стабильно рассуждать о сложных задачах, траектории превышают 100 тысяч токенов, достигая уровня золотой медали на олимпиадах IMO/USAMO/IPhO и других соревнованиях, а также демонстрирует способность к научному мышлению за пределами математики и физики.

MeNews

2026-05-27 00:46:07

Генерация тезисов в процессе

AIMPACT сообщение, 16 мая (UTC+8), новая статья предлагает системный метод преобразования моделей пост-тренировочного вывода в олимпийского уровня решатели задач, и на основе этого метода обучена модель SU-01. Этот метод включает три шага: сначала использование курса обратной путаницы для контролируемой дообучения с целью внедрения строгого поиска доказательств и самопроверки; затем расширение этих действий с помощью двухэтапного усиленного обучения (от обучения с вознаграждением, основанного на проверяемых результатах, до обучения на уровне доказательств); и, наконец, повышение производительности за счет масштабирования во время тестирования. Исследовательская команда применила метод к базовой модели 30B-A3B, используя около 340 тысяч траекторий по 8K токенов для контролируемого дообучения, после чего провела 200 шагов усиленного обучения, получив SU-01. Эта модель способна стабильно рассуждать о сложных задачах, длина траекторий превышает 100 тысяч токенов, достигая уровня золотых медалей на соревнованиях IMO 2025/USAMO 2026 и IPhO 2024/2025, а также демонстрирует способность к обобщению в области научных рассуждений за пределами математики и физики. (Источник: InFoQ)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

11 Лайков

Награда
11
11
2
Поделиться

комментарий

Добавить комментарий

SeaSaltMintCandy

· 4ч назад

Есть ли у имени SU-01 какое-либо значение или оно выбрано просто так?

Посмотреть ОригиналОтветить0

StainedGlassSolarArray

· 5ч назад

После обучения реализовать этот подход, и другие лаборатории, скорее всего, скоро последуют за ними.

Посмотреть ОригиналОтветить0

GateUser-d2929483

· 5ч назад

Если эта работа действительно, данные для конкурсных задач подорожают

Посмотреть ОригиналОтветить0

StopRaisingGasFees.

· 5ч назад

200 шагов RL может сходиться? Или это просто публичная цифра?

Посмотреть ОригиналОтветить0

MetalFrameBookPageCross

· 5ч назад

两阶段RL扩展具体指什么，有细节吗

Ответить0

GateUser-7a050ee5

· 5ч назад

Пока что отметим, ожидая открытого исходного кода или подробного технического отчёта.

Посмотреть ОригиналОтветить0

GateUser-f4b3df7a

· 5ч назад

Как реализуется механизм самопроверки, есть ли отдельная цель обучения?

Посмотреть ОригиналОтветить0

GateUser-e3701961

· 5ч назад

Во время тестирования масштабирование повышения — это самосогласованность или другой трюк?

Посмотреть ОригиналОтветить0

LittleBitcoinInTheReflection

· 5ч назад

Масштаб 30B-A3B способен достигать такого уровня, эффективность намного выше, чем у GPT-4, верно?

Посмотреть ОригиналОтветить0

HalfLifeHodler

· 5ч назад

Способность к междисциплинарной обобщающей способности — это то, на что стоит обратить особое внимание, чтобы не получилось переобучение на бенчмарках.

Посмотреть ОригиналОтветить0

Подробнее

Популярные темы
Подробнее
#
StockTradingChallengeUpTo17000U
16.23M Популярность
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
817.69K Популярность
#
IsraelStrikesIranBTCPlunges
49.57K Популярность
#
GatePredictionMarketAddsSmartMoneyTracking
13.2M Популярность
#
MicronMarketCapBreaks1Trillion
36.87K Популярность

Закреплено

Карта сайта

После обучения модель вывода SU-01 достигла золотого уровня в олимпиадных задачах

Популярные темы

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Закреплено