Impacto de la prueba real de Augment Code con AGENTS.md en la generación de código: lo mejor equivale a una mejora de nivel del modelo, lo peor es peor que no escribirlo.

robot
Generación de resúmenes en curso
ME News Mensaje, 23 de abril (UTC+8), según el monitoreo de Beating, la empresa de herramientas de programación AI Augment Code extrajo docenas de AGENTS.md de su propio monorepo y utilizó el conjunto de evaluación interno AuggieBench para medir su impacto real en la producción de agentes de codificación. El método fue tomar PR de alta calidad ya fusionados como referencia, permitir que el agente rehiciera la misma tarea con y sin AGENTS.md, y comparar las puntuaciones. La diferencia fue mucho mayor de lo esperado. El mejor escrito AGENTS.md mejoró la calidad tanto como cambiar el modelo de Haiku a Opus, mientras que el peor escrito fue peor que no tenerlo. Además, el mismo archivo puede tener efectos opuestos en diferentes tareas: aumentó el cumplimiento normativo de una corrección de errores en un 25%, pero redujo la finalización de una función compleja en el mismo módulo en un 30%. Las prácticas efectivas son: mantener el archivo principal entre 100 y 150 líneas, acompañarlo con varios documentos de referencia enfocados, y en módulos medianos con alrededor de cien archivos centrales, puede generar una mejora general del 10% al 15%. El formato de pasos numerados es el más efectivo; un proceso de implementación de 6 pasos redujo los PR con archivos faltantes del 40% al 10%, y la precisión aumentó en un 25%. Usar tablas de decisión para ayudar al agente a elegir el plan correcto antes de actuar también aumentó el cumplimiento normativo en un 25%. Las prohibiciones deben ir acompañadas de alternativas; escribir solo "no" hará que el agente se vuelva indeciso, y más de 15 advertencias consecutivas empeoran notablemente el rendimiento. Lo que más propenso a fallar es tener demasiados documentos. Una vez que el agente es arrastrado a una gran cantidad de documentos de arquitectura, después de cargar cientos de miles de tokens, la producción empeora. Un módulo acumuló 226 documentos de más de 2MB, y ni el mejor AGENTS.md sirvió de nada. Además, AGENTS.md es el único lugar de documento que el agente lee al 100%, y la tasa de descubrimiento de documentos no referenciados bajo _docs/ es inferior al 10%. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios