Impacto do teste do Augment Code com AGENTS.md na geração de código: o melhor equivale a subir um nível de modelo, o pior é pior do que não escrever.

robot
Geração de resumo em curso
Notícias ME News, 23 de abril (UTC+8), segundo monitoramento da Beating, a empresa de ferramentas de programação de IA Augment Code extraiu dezenas de AGENTS.md do seu próprio monorepo, usando o conjunto de avaliação interno AuggieBench para medir o impacto real delas na produção do agente de codificação.
A abordagem é usar PRs de alta qualidade já mesclados como referência, fazer o agente refazer a mesma tarefa com e sem AGENTS.md, e comparar as pontuações.
A diferença foi muito maior do que o esperado. O AGENTS.md melhor escrito proporcionou uma melhoria de qualidade equivalente a trocar o modelo de Haiku para Opus, enquanto o pior escrito foi pior do que não ter nenhum.
Além disso, o mesmo ficheiro pode ter efeitos opostos em tarefas diferentes: aumentou a conformidade com as especificações de uma correção de bug em 25%, mas reduziu a conclusão de uma funcionalidade complexa no mesmo módulo em 30%.
Há algumas regras de escrita eficazes: o ficheiro principal deve ter entre 100 e 150 linhas, acompanhado de alguns documentos de referência focados, o que pode trazer uma melhoria geral de 10% a 15% em módulos médios com cerca de cem ficheiros principais.
Escrever o processo como passos numerados é o mais eficaz; um processo de implementação de 6 passos reduziu os PRs com ficheiros em falta de 40% para 10%, e a taxa de precisão aumentou 25%.
Usar tabelas de decisão para ajudar o agente a escolher a abordagem correta antes de agir também aumentou a conformidade com as especificações em 25%.
Escrever proibições deve vir acompanhado de alternativas; escrever apenas 'não' faz o agente hesitar, e mais de 15 avisos consecutivos pioram visivelmente o efeito.
O que mais falha é ter demasiados documentos. Assim que o agente é arrastado para uma grande quantidade de documentos de arquitetura, após carregar centenas de milhares de tokens, a produção fica pior.
Um módulo acumulou 226 documentos com mais de 2MB, e mesmo que o AGENTS.md fosse bom, não adiantava.
Além disso, o AGENTS.md é o único local de documento que o agente lê 100% das vezes; a taxa de descoberta de documentos não referenciados em _docs/ é inferior a 10%.
(Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário