Cursor раскрывает метод обучения «самозакрепления»: использование старого Composer для создания среды нового модели, Terminal-Bench вырос на 14 пунктов

robot
Генерация тезисов в процессе

Согласно мониторингу Beating, Cursor опубликовал один из тренировочных трюков серии моделей Composer: использовать предыдущую версию модели для автоматической сборки рабочей среды для следующего поколения с помощью обучения с подкреплением (RL).
При обучении Composer 2 Cursor использовал Composer 1.5 для выполнения этой задачи, называя это autoinstall.
Обучение с RL требует рабочей кодовой среды.
Если среда настроена неправильно, модель тратит токены на исправление ошибок, и ничего не учится;
в крайних случаях среда полностью не запускается, и вся вычислительная мощность тратается впустую.
autoinstall решает эту проблему в два шага:
Первый шаг — агент читает документацию и конфигурацию кодовой базы, предлагает 10 команд проверки и ожидаемый вывод;
Второй шаг — другой агент берет 3 из этих команд, настраивает среду с нуля до успешного выполнения команд.
Второй шаг можно повторять максимум 5 раз, при полном провале среду отбрасывают.
Во время настройки среды агент активно дополняет недостающие зависимости: подделывает таблицы базы данных, создает конфигурацию MinIO вместо S3, запускает контейнер Docker в качестве sidecar-сервиса, даже генерирует заглушки изображений.
В статье на примере блокчейн-проекта celo-org/celo-monorepo показан весь процесс: после неудачи на первом этапе настройки среды, во втором агент самостоятельно создает моковых пользователей, обходя аутентификацию, и в итоге тест проходит.
Composer 2 набрал 61,7% в Terminal-Bench (базовой тестовой системе для оценки возможностей построения среды модели), что на почти 14 процентных пунктов выше, чем Composer 1.5 с 47,9%.
Cursor заявил, что в будущем планирует привлечь старую версию Composer к участию в более широких этапах обучения, включая предварительную обработку данных, управление запуском и оптимизацию архитектуры.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить