AIMPACT сообщение, 16 мая (UTC+8), новая статья предлагает системный метод преобразования моделей пост-тренировочного вывода в олимпийского уровня решатели задач, и на основе этого метода обучена модель SU-01. Этот метод включает три шага: сначала использование курса обратной путаницы для контролируемой дообучения с целью внедрения строгого поиска доказательств и самопроверки; затем расширение этих действий с помощью двухэтапного усиленного обучения (от обучения с вознаграждением, основанного на проверяемости, до обучения с доказательственным уровнем); и, наконец, повышение производительности за счет масштабирования во время тестирования. Исследовательская команда применила метод к базовой модели 30B-A3B, используя около 340 тысяч траекторий по 8K токенов для контролируемого дообучения, затем провела 200 шагов усиленного обучения, получив SU-01. Эта модель способна стабильно рассуждать о сложных задачах, длина траекторий превышает 100 тысяч токенов, достигая уровня золотых медалей на соревнованиях IMO 2025/USAMO 2026 и IPhO 2024/2025, а также демонстрирует способность к обобщению в области научных рассуждений за пределами математики и физики. (Источник: InFoQ)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

8 Лайков

Награда
8
11
Репост
Поделиться

комментарий

Добавить комментарий

FloatingMirrorSphere

· 45м назад

Траектория стабильно выводит 100 тысяч токенов без сбоев, инфраструктурный уровень тоже довольно сильный

Посмотреть ОригиналОтветить0

GateUser-46c777d0

· 4ч назад

34万条轨迹喂进去，RL才跑200步，数据效率比想象中高

Ответить0

CandlewickKid

· 4ч назад

Могут ли физические олимпиады также обобщаться? Хотел бы посмотреть, как она проявляется в задачах по проектированию экспериментов.

Посмотреть ОригиналОтветить0

RetroRadioWaves

· 4ч назад

Тестовая масштабируемость повышения означает тестовое вычисление масштабирования?

Посмотреть ОригиналОтветить0

ReflectiveChainShadow

· 4ч назад

Интересная деталь о траектории 子8K — это разбивать длинное доказательство на маленькие части и подавать их?

Посмотреть ОригиналОтветить0

ByteSizedAlpha

· 4ч назад

Общий вывод о междисциплинарной обобщаемости очень большой, ждём конкретных примеров.

Посмотреть ОригиналОтветить0

StainedGlassSolarArray

· 4ч назад

Навыки самопроверки могут быть самыми важными, гораздо важнее простого генерации ответов.

Посмотреть ОригиналОтветить0

StillHereAfterTheRugPull

· 4ч назад

Это название 30B-A3B, A3B — это активирующий параметр?

Посмотреть ОригиналОтветить0

GateUser-52241ed6

· 4ч назад

IMO золотой уровень... в будущем соревнования, наверное, будут делиться на человеческую группу и группу ИИ.

Посмотреть ОригиналОтветить0

GateUser-e72657f0

· 4ч назад

Дизайн курса по обратной запутанности очень хитрый, он позволяет модели сначала научиться сомневаться в себе

Посмотреть ОригиналОтветить0

Подробнее

Популярные темы
Подробнее
#
StockTradingChallengeUpTo17000U
16.23M Популярность
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
818.99K Популярность
#
IsraelStrikesIranBTCPlunges
49.57K Популярность
#
GatePredictionMarketAddsSmartMoneyTracking
13.77M Популярность
#
MicronMarketCapBreaks1Trillion
37.83K Популярность

Закреплено

Карта сайта

Послеобученная модель вывода SU-01 достигает золотого уровня в олимпиадных задачах

Популярные темы

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Закреплено