Обучение с обратной перплексией + двухэтапное обучение с подкреплением + стандартизация при тестировании — после применения этого комплекса потолок для последующего обучения и вывода модели был пробит.

Посмотреть Оригинал
MeNews
После обучения модель вывода SU-01 достигла золотого уровня в олимпиадных задачах
AIMPACT предложила системный метод преобразования моделей посттренировочного вывода в олимпийского уровня решатели задач, состоящий из трех этапов: с помощью курса обратной путаницы для контролируемой дообучения внедряет поиск доказательств и самопроверку; затем расширяет его двумя этапами усиленного обучения; при тестировании дополнительно масштабирует улучшение.
Применяя к базе 30B-A3B, использовались около 340 000 суб-8K траекторий для контролируемого дообучения, затем 200 шагов RL, получена модель SU-01.
Эта модель способна стабильно рассуждать о сложных задачах, траектории превышают 100 000 токенов, достигая уровня золотой медали на конкурсах IMO/USAMO/IPhO и других, а также демонстрирует способность к обобщению научных рассуждений за пределами математики и физики.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено