Обучение с обратной запутанностью + двухэтапное усиленное обучение + расширение при тестировании, этот набор методов прорвал границы математики и физики, а обобщение научного мышления — это скрытая мощь.

Посмотреть Оригинал
MeNews
После обучения модель вывода SU-01 достигла золотого уровня в задачах олимпийского уровня
AIMPACT предложила систематический подход к преобразованию моделей посттренировочного вывода в олимпийского уровня решатели задач, состоящий из трех этапов: с помощью курса обратной путаницы для контролируемой дообучения внедряет поиск доказательств и самопроверку; затем расширяет его двумя этапами усиленного обучения; при тестировании выполняет масштабирование для повышения эффективности.
Применено к базе 30B-A3B, с использованием около 340 000 суб-8K траекторий для контролируемого дообучения, затем 200 шагов RL, получена модель SU-01.
Эта модель способна стабильно рассуждать о сложных задачах, траектории превышают 100 000 токенов, достигая уровня золотой медали на соревнованиях IMO/USAMO/IPhO и других, а также демонстрирует способность к обобщению научных рассуждений за пределами математики и физики.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено