Модель-исследователь, обученная на 340 000 треков, — это настоящий монстр логики, а имя SU-01 звучит довольно круто.

Посмотреть Оригинал
MeNews
Послеобученная модель вывода SU-01 достигла золотого уровня в олимпиадных задачах
AIMPACT предложила систематический подход к преобразованию моделей посттренировочного вывода в олимпийского уровня решатели задач, состоящий из трех этапов: с помощью курса обратной путаницы для супервизорной донастройки внедряет поиск доказательств и самопроверку; затем расширяет его двумя этапами усиленного обучения; при тестировании выполняет масштабирование для повышения эффективности.
Применено к базе 30B-A3B, с использованием около 340 000 суб-8K траекторий для супервизорной донастройки, затем 200 шагов RL, получена модель SU-01.
Эта модель способна стабильно рассуждать о сложных задачах, траектории превышают 100 000 токенов, достигая уровня золотой медали на конкурсах IMO/USAMO/IPhO и демонстрируя способность к научному мышлению за пределами математики и физики.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено