34 миллионами треков натренированный разумный монстр, имя SU-01 звучит достаточно скромно

Посмотреть Оригинал
MeNews
После обучения модель вывода SU-01 достигла золотого уровня в олимпиадных задачах
AIMPACT предложила системный метод преобразования моделей посттренировочного вывода в олимпийского уровня решатели задач, состоящий из трех этапов: с помощью курса обратной путаницы для контролируемой дообучения внедряет поиск доказательств и самопроверку; затем расширяет его двумя этапами усиленного обучения; при тестировании выполняет масштабирование для повышения эффективности.
Применено к базе 30B-A3B, использовано около 340 тысяч суб-8K траекторий для контролируемого дообучения, затем 200 шагов RL, получена модель SU-01.
Эта модель способна стабильно рассуждать о сложных задачах, траектории превышают 100 тысяч токенов, достигая уровня золотой медали на конкурсах IMO/USAMO/IPhO и других, а также демонстрирует способность к научному мышлению за пределами математики и физики.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено