Como fazer o programa de IA escrever mais devagar, mas com mais precisão: revisão de PR com múltiplos modelos, para reduzir ao máximo a probabilidade de bugs

Anterior engenheiro sênior da Microsoft Nolan Lawson usa os modelos Claude, Codex e Cursor Bugbot para revisar PRs de forma sincronizada, verificando cruzadamente para reduzir a taxa de falsos positivos quase a zero.
(Resumindo: Claude Code anuncia aumento de 50% no limite semanal de tokens por dois meses! Anthropic tenta dominar o ecossistema de desenvolvedores)
(Informação adicional: Stripe inicia testes de pagamento automático com AI Agent: suporte ao pagamento USDC na cadeia Base via x402)

Índice deste artigo

Alternar

  • LLMs são naturalmente bons em encontrar bugs
  • Lógica de verificação cruzada com múltiplos modelos
  • Velocidade reduzida, qualidade aumentada

Sabemos que a vantagem do AI na codificação é “gerar rapidamente uma grande quantidade de código”, mas a precisão ainda é questionável. Nolan Lawson, ex-engenheiro sênior da Microsoft e Salesforce, documentou em seu blog um novo fluxo de trabalho: ele usa múltiplos grandes modelos de linguagem para revisar simultaneamente cada pull request (pedido de fusão de código, ou seja, cada envio de novo código ao projeto), com o objetivo de verificar cruzadamente e identificar bugs reais, ao invés de simplesmente gerar mais código rapidamente.

Esse fluxo não aumentou a quantidade de código produzida, mas melhorou significativamente sua qualidade.

LLMs são naturalmente bons em encontrar bugs

O projeto Glasswing, lançado pela Anthropic neste ano (atualização pública do sistema Mythos), fornece uma base de dados direta para essa lógica.

O sistema permite que agentes de LLM escaneiem em larga escala códigos open source reais. Como resultado: após escanear mais de 1.000 projetos open source, o sistema estimou a descoberta de 6.202 vulnerabilidades de alta severidade ou críticas, totalizando 23.019 vulnerabilidades (incluindo de baixa severidade). Destas, 1.752 vulnerabilidades verificadas por empresas independentes de segurança tiveram 90,6% confirmadas como problemas reais, e 62,4% eram de alta severidade ou críticas.

Esses números indicam uma mudança fundamental: encontrar bugs deixou de ser o gargalo, agora o foco é verificar e corrigir.

No relatório de pesquisa, a Anthropic afirma claramente: “O progresso na segurança de software, que antes era limitado pela velocidade de encontrar vulnerabilidades, agora é limitado pela velocidade de verificar, revelar e corrigir.” Em outras palavras, a IA já mudou o gargalo do problema de “descoberta” para “capacidade de processamento”.

Lógica de verificação cruzada com múltiplos modelos

A abordagem central de Lawson é fazer múltiplos modelos de diferentes fornecedores revisarem o PR simultaneamente, ao invés de depender de um único modelo.

Seu conjunto de ferramentas inclui Claude Code, Codex da OpenAI e Cursor Bugbot, que revisam de forma independente o mesmo pull request, e depois consolidam todos os resultados, classificados em quatro níveis de severidade: crítico, alto, médio e baixo.

Essa estratégia de verificação cruzada com múltiplos modelos tem uma característica-chave: um único modelo pode gerar falsos positivos facilmente, mas quando vários modelos treinados com dados e arquiteturas diferentes apontam para o mesmo problema, a taxa de falsos positivos cai drasticamente, aumentando a cobertura. Como Lawson explica: “A taxa de falsos positivos é quase zero, e a cobertura de bugs encontrados é muito alta.”

Seu fluxo de decisão é bastante claro. Todos os problemas críticos e altos devem ser resolvidos primeiro; problemas médios e baixos são avaliados individualmente quanto ao “custo de reparo” e ao “impacto real”, e aqueles que não valem a pena são ignorados para não desperdiçar recursos de desenvolvimento; se um PR tem muitos problemas críticos, ele é descartado e refeito do zero, ao invés de continuar aplicando patches em problemas fundamentais.

A técnica de revisão de PR de Lawson vem de um estudo que analisa o desempenho de múltiplos modelos na revisão de código: quanto mais diversos forem os modelos utilizados, mais preciso será o relatório final. O princípio por trás é “modelos diversos reduzem viés”: diferentes modelos treinados com backgrounds distintos têm tendências diferentes ao avaliar o mesmo trecho de código, e a votação majoritária consegue filtrar efetivamente os pontos cegos de cada um.

Velocidade reduzida, qualidade aumentada

Após adotar esse fluxo, os resultados práticos de Lawson foram: a quantidade de código gerado (número de linhas) não aumentou, e muitas vezes ele encontrou bugs antigos que já estavam presentes, obrigando a escrever testes unitários — automações que verificam funcionalidades específicas —, levando mais tempo para corrigir problemas antigos do que para avançar com novas funcionalidades.

Esse não era o resultado esperado, mas, sob outro ângulo, indica que a saúde do código base está sendo reforçada sistematicamente.

Lawson chama esse método de trabalho de “coding com mais qualidade e vibe mais cuidadosa”, uma abordagem cautelosa, metodológica e orientada à qualidade.

Ferramentas de desenvolvimento geralmente priorizam “velocidade” como seu principal diferencial, mas o verdadeiro problema que os engenheiros precisam resolver nunca foi só acelerar. Cada linha de código tem seu custo de manutenção, seu risco de falha. Usar IA para escrever código mais lentamente, mas com maior durabilidade e menor probabilidade de problemas, é uma estratégia que prioriza a qualidade ao invés da velocidade.

USDC0,02%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários