Test réel d'AGENTS.md par Augment Code sur la génération de code : le meilleur équivaut à une mise à niveau de modèle, le pire est pire que de ne pas écrire.

robot
Création du résumé en cours
ME News, 23 avril (UTC+8), selon le suivi de Beating, la société d'outils de programmation AI Augment Code a extrait des dizaines de fichiers AGENTS.md de son propre monorepo et a utilisé la suite d'évaluation interne AuggieBench pour mesurer leur impact réel sur la production des agents de codage.
La méthode consiste à prendre des PR de haute qualité déjà fusionnées comme référence, à laisser l'agent refaire la même tâche avec et sans AGENTS.md, et à comparer les scores.
L'écart est bien plus grand que prévu. Les meilleurs AGENTS.md ont apporté une amélioration de qualité équivalente au passage du modèle Haiku à Opus, tandis que les pires étaient pires que pas de fichier du tout.
De plus, le même fichier peut avoir des effets opposés sur différentes tâches : il a augmenté la conformité aux spécifications d'une correction de bug de 25 %, mais a fait chuter de 30 % l'achèvement d'une fonctionnalité complexe dans le même module.
Quelques bonnes pratiques d'écriture : le fichier principal doit être limité à 100-150 lignes, accompagné de quelques documents de référence ciblés, ce qui peut apporter une amélioration globale de 10 % à 15 % dans les modules moyens avec une centaine de fichiers principaux.
Écrire les processus sous forme d'étapes numérotées est le plus efficace : un processus de déploiement en 6 étapes a réduit les PR avec des fichiers manquants de 40 % à 10 %, et augmenté le taux de précision de 25 %.
Utiliser une table de décision pour aider l'agent à choisir la bonne approche avant d'agir a également augmenté la conformité aux spécifications de 25 %.
Les interdictions doivent être accompagnées d'alternatives ; écrire simplement "ne pas" rendra l'agent indécis, et plus de 15 avertissements consécutifs dégradent clairement l'effet.
Le piège le plus courant est trop de documentation. Une fois que l'agent est entraîné dans une grande quantité de documents d'architecture, après avoir chargé des centaines de milliers de tokens, la production se détériore.
Un module a accumulé 226 documents dépassant 2 Mo, ce qui rend inutile même les meilleurs AGENTS.md.
De plus, AGENTS.md est le seul emplacement de document que l'agent lira à 100 %, et le taux de découverte des documents non référencés dans _docs/ est inférieur à 10 %.
(Source : Beating)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire