Augment Code реальне тестування AGENTS.md вплив на генерацію коду: найкращий — це як оновлення моделі на один рівень, найгірший — краще не писати взагалі

robot
Генерація анотацій у процесі

МЕ Новини повідомляють, 23 квітня (UTC+8), згідно з моніторингом Beating, компанія з інструментів програмування на базі штучного інтелекту Augment Code витягла з власного монорепозиторію десятки файлів AGENTS.md і за допомогою внутрішнього тестового набору AuggieBench вимірювала їхній реальний вплив на якість виходу агентів при кодуванні. Метод полягає у використанні вже злитих високоякісних PR як еталону, щоб агент виконав одне й те саме завдання у двох умовах: з і без AGENTS.md, і порівняти оцінки. Різниця в результатах виявилася значно більшою за очікувану. Найкращі AGENTS.md підвищують якість так само, ніби змінюють модель з Haiku на Opus, тоді як найгірші — навіть гірше, ніж зовсім їх відсутність. Крім того, один і той самий файл може давати протилежний ефект на різних завданнях: він підвищує відповідність стандартам виправлення багів на 25%, але знижує завершеність складної функції в тому ж модулі на 30%. Ефективні підходи включають кілька правил: основний файл має бути обсягом 100-150 рядків, додавання кількох фокусних довідкових документів, і в середніх модулях з близько сотні ключових файлів можна отримати 10-15% загального покращення. Найкраще працює, коли процес оформлений у вигляді нумерованих кроків: наприклад, шестиступеневий процес розгортання зменшує кількість PR із пропущеними файлами з 40% до 10%, а точність підвищується на 25%. Використання таблиць рішень для допомоги агенту у виборі правильного рішення перед початком роботи також підвищує відповідність стандартам на 25%. Вказівки щодо заборон слід супроводжувати альтернативними рішеннями: просто забороняти щось без пропозиції заміни може спричинити нерішучість агента, а понад 15 попереджень поспіль значно погіршують ефективність. Найбільш вразливим є надмірна кількість документації: якщо агент занурений у велику кількість архітектурних документів, після завантаження сотень тисяч токенів його продуктивність знижується. Наприклад, один модуль містить 226 документів обсягом понад 2 МБ, і навіть найкращий AGENTS.md тут не допоможе. Крім того, AGENTS.md — єдине місце, яке агент обов’язково читає, і менше 10% документів у папці _docs/ використовуються або посилаються. (Джерело: BlockBeats)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити