Como fazer o programa de IA escrever mais devagar, mas com maior precisão: revisão de PR com múltiplos modelos, para reduzir ao máximo a probabilidade de bugs

Anterior engenheiro sênior da Microsoft Nolan Lawson usa os três modelos Claude, Codex e Cursor Bugbot para revisar PRs de forma sincronizada, realizando validações cruzadas que reduzem a taxa de falsos positivos para quase zero.
(Resumindo: Claude Code anuncia aumento de 50% no limite semanal de tokens por dois meses! Anthropic tenta dominar o ecossistema de desenvolvedores.)
(Informação adicional: Stripe inicia testes de pagamento automático com AI Agent: suporte ao pagamento em USDC na cadeia Base via x402.)

Índice deste artigo

Alternar

  • LLMs são naturalmente bons em encontrar bugs
  • Lógica de validação cruzada na revisão por múltiplos modelos
  • Velocidade reduzida, qualidade aumentada

Sabemos que a vantagem do AI na codificação é “gerar rapidamente uma grande quantidade de código”, mas a precisão ainda é questionável. Nolan Lawson, ex-engenheiro sênior da Microsoft e Salesforce, documentou em seu blog um novo fluxo de trabalho: ele usa múltiplos grandes modelos de linguagem para revisar simultaneamente cada pull request (requisição de fusão de código, ou seja, cada envio de novo código ao projeto), com o objetivo de validar cruzadamente e identificar bugs reais, ao invés de simplesmente gerar mais código rapidamente.

Esse fluxo faz com que sua produção de código não aumente, mas a qualidade do código melhore significativamente.

LLMs são naturalmente bons em encontrar bugs

O projeto Glasswing, lançado pela Anthropic neste ano (atualização pública do sistema Mythos), fornece uma base de dados direta para essa lógica.

Esse sistema permite que agentes de LLM escaneiem em grande escala códigos open source reais. Como resultado: após escanear mais de 1.000 projetos open source, o sistema estimou a descoberta de 6.202 vulnerabilidades de alta severidade ou críticas, totalizando 23.019 vulnerabilidades (incluindo de baixa severidade). Destas, 1.752 vulnerabilidades verificadas por empresas independentes de segurança tiveram 90,6% confirmadas como problemas reais, e 62,4% eram de alta severidade ou críticas.

Esses números indicam uma mudança fundamental: encontrar bugs deixou de ser o gargalo, sendo a validação e correção o verdadeiro desafio.

No relatório de pesquisa, a Anthropic afirma claramente: “O progresso na segurança de software, que antes era limitado pela velocidade de encontrar vulnerabilidades, agora é limitado pela velocidade de validar, revelar e corrigir.” Em outras palavras, a IA já mudou o gargalo do problema de “descoberta” para “capacidade de processamento”.

Lógica de validação cruzada na revisão por múltiplos modelos

A abordagem central de Lawson é fazer múltiplos modelos de diferentes fornecedores revisarem o PR simultaneamente, ao invés de depender de um único modelo.

Seu conjunto de ferramentas inclui Claude Code, Codex da OpenAI e Cursor Bugbot, que revisam de forma independente o mesmo pull request, e depois consolidam todos os resultados, ordenando-os por severidade: crítico, alto, médio e baixo.

Essa configuração de validação cruzada por múltiplos modelos possui uma característica-chave: um único modelo tende a gerar falsos positivos, mas quando vários modelos treinados com dados e arquiteturas diferentes apontam para o mesmo problema, a taxa de falsos positivos cai drasticamente, enquanto a cobertura aumenta. Como Lawson explica: “A taxa de falsos positivos é quase zero, e a cobertura de bugs encontrados é muito alta.”

Seu fluxo de decisão é bastante claro. Todos os problemas críticos e altos devem ser resolvidos primeiro; problemas médios e baixos são avaliados individualmente com base na relação entre “custo de reparo” e “impacto real”, e aqueles que não valem a pena são ignorados para não desperdiçar recursos de desenvolvimento; se um PR contém muitos problemas críticos, ele é descartado e refeito do zero, ao invés de continuar aplicando patches em problemas fundamentais.

A técnica central de revisão de PR de Lawson vem de um estudo que analisa o desempenho de múltiplos modelos na revisão de código: quanto mais diversos forem os modelos utilizados, mais preciso será o relatório final. O princípio por trás é “modelos diversos reduzem viés”: modelos treinados com diferentes backgrounds geram opiniões diferentes sobre o mesmo trecho de código, e a votação majoritária consegue filtrar efetivamente os pontos cegos de um único modelo.

Velocidade reduzida, qualidade aumentada

Após adotar esse fluxo, Lawson constatou na prática: a quantidade de código gerado (número de linhas) não aumentou, e muitas vezes ele descobria bugs antigos que já estavam presentes, obrigando a escrever testes unitários — ou seja, testes automatizados para verificar funcionalidades específicas — levando mais tempo para corrigir problemas antigos do que para avançar com novas funcionalidades.

Esse não era o resultado esperado por ele, mas, sob outro ângulo, é um sinal de que a saúde do código base está sendo reforçada sistematicamente.

Lawson chama esse método de trabalho de “coding com mais qualidade”, ou seja, com cautela, método e foco na qualidade.

Ferramentas de desenvolvimento geralmente priorizam “velocidade” como seu principal diferencial, mas o verdadeiro problema que os engenheiros precisam resolver nunca foi apenas a velocidade. Cada linha de código tem seu custo de manutenção e seu risco de apresentar problemas. Usar IA para escrever código mais lentamente, mas com maior durabilidade e menor probabilidade de falhas, é uma estratégia que prioriza a qualidade ao invés da quantidade.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado