После обучения модель вывода SU-01 достигла золотого уровня в олимпиадных задачах

robot
Генерация тезисов в процессе
AIMPACT сообщение, 16 мая (UTC+8), опубликована новая статья, которая предлагает системный метод преобразования моделей посттренировочного вывода в олимпийского уровня решатели задач, и на основе этого метода обучена модель SU-01. Этот метод включает три шага: сначала использование курса обратной путаницы для контролируемой дообучения с целью внедрения строгого поиска доказательств и самопроверки; затем расширение этих действий с помощью двухэтапного усиленного обучения (переход от обучения с подкреплением на основе проверяемых наград к обучению с доказательствами); и, наконец, повышение производительности за счет масштабирования во время тестирования. Исследовательская команда применила метод к базовой модели 30B-A3B, используя около 340 тысяч траекторий с 8K токенами для контролируемого дообучения, после чего провела 200 шагов усиленного обучения, получив SU-01. Эта модель способна стабильно рассуждать о сложных задачах, длина траекторий превышает 100 тысяч токенов, достигая уровня золотых медалей на соревнованиях IMO 2025/USAMO 2026 и IPhO 2024/2025, а также демонстрирует способность к обобщению в области научных рассуждений за пределами математики и физики. (Источник: InFoQ)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 6
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
BlackVelvetKeychain
· 3ч назад
Курс по обратной перплексии — очень интересный дизайн, он закодировал опыт людей в решении задач.
Посмотреть ОригиналОтветить0
OrdersPlacedBeforeTheStorm
· 3ч назад
Механизм самопроверки был бы очень полезен, если бы его можно было визуализировать, тогда отладка процесса вывода стала бы намного проще.
Посмотреть ОригиналОтветить0
VinesCoiledIntoGeometricShapes
· 4ч назад
Физические соревнования также включены, теперь у студентов, участвующих в олимпиадах по физике, есть AI-партнер для тренировок
Посмотреть ОригиналОтветить0
BridgeAnxiety
· 4ч назад
A3B是什么架构,有懂哥展开说说吗
Ответить0
GateUser-ecf4759e
· 4ч назад
Выбор этого уровня гранулярности 子8K轨迹 имеет свои особенности, слишком длинные градиенты могут привести к взрыву.
Посмотреть ОригиналОтветить0
FudAlsoNeedsAnImage
· 4ч назад
Последняя фраза «научное обобщение» заставила меня подумать о парадоксе Полани — мы знаем больше, чем можем выразить, может ли ИИ сейчас охватить ту часть невыраженной интуиции?
Посмотреть ОригиналОтветить0
  • Закреплено