Результаты тестирования Augment Code о влиянии AGENTS.md на генерацию кода: лучший случай эквивалентен обновлению модели на один уровень, худший — хуже, чем если бы его не писали.

robot
Генерация тезисов в процессе
ME News сообщает, 23 апреля (UTC+8), по данным мониторинга Beating, компания Augment Code, разработчик инструментов для AI-программирования, извлекла десятки файлов AGENTS.md из своего monorepo и с помощью внутреннего оценочного набора AuggieBench измерила их фактическое влияние на результаты работы кодирующих агентов. Метод заключался в том, чтобы взять уже объединенные высококачественные PR в качестве эталона и заставить агента повторно выполнить ту же задачу при наличии и отсутствии AGENTS.md, а затем сравнить оценки. Разрыв оказался намного больше ожидаемого. Лучшие AGENTS.md повышали качество так же, как замена модели с Haiku на Opus, а худшие были хуже, чем их полное отсутствие. Более того, один и тот же файл мог давать противоположный эффект для разных задач: он повысил соответствие нормам исправления ошибки на 25%, но снизил завершенность сложной функции того же модуля на 30%. Эффективные методы написания: основной файл должен содержать от 100 до 150 строк, в паре с несколькими сфокусированными справочными документами, что в среднем модуле из примерно 100 основных файлов дает общее улучшение на 10–15%. Лучше всего работают нумерованные шаги: 6-шаговый процесс развертывания сократил долю PR с пропущенными файлами с 40% до 10%, повысив точность на 25%. Использование таблиц решений, помогающих агенту выбрать правильный подход перед началом работы, также повысило соответствие нормам на 25%. Запреты должны сопровождаться альтернативными вариантами; простое «не делай» заставляет агента колебаться, а при 15 и более последовательных предупреждениях эффект резко ухудшается. Самая частая причина неудач — слишком много документации. Когда агент загружается большим объемом архитектурных документов, после загрузки сотен тысяч токенов результат ухудшается. В одном модуле накопилось 226 документов объемом более 2 МБ, и даже лучшие AGENTS.md не помогли. Кроме того, AGENTS.md — единственное место, которое агент читает на 100%, а обнаруживаемость документов в _docs/, на которые нет ссылок, составляет менее 10%. (Источник: Beats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено