После обучения модель вывода SU-01 достигла золотого уровня в олимпиадных задачах

robot
Генерация тезисов в процессе
AIMPACT сообщение, 16 мая (UTC+8), новая статья предлагает системный метод преобразования моделей пост-тренировочного вывода в олимпийского уровня решатели задач, и на основе этого метода обучена модель SU-01. Этот метод включает три шага: сначала использование курса обратной путаницы для контролируемой дообучения с целью внедрения строгого поиска доказательств и самопроверки; затем расширение этих действий с помощью двухэтапного усиленного обучения (от обучения с вознаграждением, основанного на проверяемых результатах, до обучения на уровне доказательств); и, наконец, повышение производительности за счет масштабирования во время тестирования. Исследовательская команда применила метод к базовой модели 30B-A3B, используя около 340 тысяч траекторий по 8K токенов для контролируемого дообучения, после чего провела 200 шагов усиленного обучения, получив SU-01. Эта модель способна стабильно рассуждать о сложных задачах, длина траекторий превышает 100 тысяч токенов, достигая уровня золотых медалей на соревнованиях IMO 2025/USAMO 2026 и IPhO 2024/2025, а также демонстрирует способность к обобщению в области научных рассуждений за пределами математики и физики. (Источник: InFoQ)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 11
  • 2
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
SeaSaltMintCandy
· 4ч назад
Есть ли у имени SU-01 какое-либо значение или оно выбрано просто так?
Посмотреть ОригиналОтветить0
StainedGlassSolarArray
· 5ч назад
После обучения реализовать этот подход, и другие лаборатории, скорее всего, скоро последуют за ними.
Посмотреть ОригиналОтветить0
GateUser-d2929483
· 5ч назад
Если эта работа действительно, данные для конкурсных задач подорожают
Посмотреть ОригиналОтветить0
StopRaisingGasFees.
· 5ч назад
200 шагов RL может сходиться? Или это просто публичная цифра?
Посмотреть ОригиналОтветить0
MetalFrameBookPageCross
· 5ч назад
两阶段RL扩展具体指什么,有细节吗
Ответить0
GateUser-7a050ee5
· 5ч назад
Пока что отметим, ожидая открытого исходного кода или подробного технического отчёта.
Посмотреть ОригиналОтветить0
GateUser-f4b3df7a
· 5ч назад
Как реализуется механизм самопроверки, есть ли отдельная цель обучения?
Посмотреть ОригиналОтветить0
GateUser-e3701961
· 5ч назад
Во время тестирования масштабирование повышения — это самосогласованность или другой трюк?
Посмотреть ОригиналОтветить0
LittleBitcoinInTheReflection
· 5ч назад
Масштаб 30B-A3B способен достигать такого уровня, эффективность намного выше, чем у GPT-4, верно?
Посмотреть ОригиналОтветить0
HalfLifeHodler
· 5ч назад
Способность к междисциплинарной обобщающей способности — это то, на что стоит обратить особое внимание, чтобы не получилось переобучение на бенчмарках.
Посмотреть ОригиналОтветить0
Подробнее
  • Закреплено