前微软资深工程师 Nolan Lawson 使用 Claude、Codex、Cursor Bugbot 三个模型同步审查 PR，交叉验证将误报率压到接近零。（前情提要：Claude Code 宣布每周 Token 使用上限增加 50%！为期两个月 Anthropic 争夺开发者生态）（背景补充：Stripe 启动 AI 代理全自动支付测试：通过 x402 支持 Base 链 USDC 付款）本文目录切换 LLM 天生擅长找 bug 多模型审查的交叉验证逻辑速度下降，品质上升我们知道 AI

動區BlockTempo

2026-05-26 04:40:19

Anterior engenheiro sênior da Microsoft Nolan Lawson usa os três modelos Claude, Codex e Cursor Bugbot para revisar PRs de forma sincronizada, realizando validações cruzadas que reduzem a taxa de falsos positivos para quase zero.
(Resumindo: Claude Code anuncia aumento de 50% no limite semanal de tokens por dois meses! Anthropic tenta dominar o ecossistema de desenvolvedores.)
(Informação adicional: Stripe inicia testes de pagamento automático com AI Agent: suporte ao pagamento em USDC na cadeia Base via x402.)

Índice deste artigo

Alternar

LLMs são naturalmente bons em encontrar bugs
Lógica de validação cruzada na revisão por múltiplos modelos
Velocidade reduzida, qualidade aumentada

Sabemos que a vantagem do AI na codificação é “gerar rapidamente uma grande quantidade de código”, mas a precisão ainda é questionável. Nolan Lawson, ex-engenheiro sênior da Microsoft e Salesforce, documentou em seu blog um novo fluxo de trabalho: ele usa múltiplos grandes modelos de linguagem para revisar simultaneamente cada pull request (requisição de fusão de código, ou seja, cada envio de novo código ao projeto), com o objetivo de validar cruzadamente e identificar bugs reais, ao invés de simplesmente gerar mais código rapidamente.

Esse fluxo faz com que sua produção de código não aumente, mas a qualidade do código melhore significativamente.

LLMs são naturalmente bons em encontrar bugs

O projeto Glasswing, lançado pela Anthropic neste ano (atualização pública do sistema Mythos), fornece uma base de dados direta para essa lógica.

Esse sistema permite que agentes de LLM escaneiem em grande escala códigos open source reais. Como resultado: após escanear mais de 1.000 projetos open source, o sistema estimou a descoberta de 6.202 vulnerabilidades de alta severidade ou críticas, totalizando 23.019 vulnerabilidades (incluindo de baixa severidade). Destas, 1.752 vulnerabilidades verificadas por empresas independentes de segurança tiveram 90,6% confirmadas como problemas reais, e 62,4% eram de alta severidade ou críticas.

Esses números indicam uma mudança fundamental: encontrar bugs deixou de ser o gargalo, sendo a validação e correção o verdadeiro desafio.

No relatório de pesquisa, a Anthropic afirma claramente: “O progresso na segurança de software, que antes era limitado pela velocidade de encontrar vulnerabilidades, agora é limitado pela velocidade de validar, revelar e corrigir.” Em outras palavras, a IA já mudou o gargalo do problema de “descoberta” para “capacidade de processamento”.

Lógica de validação cruzada na revisão por múltiplos modelos

A abordagem central de Lawson é fazer múltiplos modelos de diferentes fornecedores revisarem o PR simultaneamente, ao invés de depender de um único modelo.

Seu conjunto de ferramentas inclui Claude Code, Codex da OpenAI e Cursor Bugbot, que revisam de forma independente o mesmo pull request, e depois consolidam todos os resultados, ordenando-os por severidade: crítico, alto, médio e baixo.

Essa configuração de validação cruzada por múltiplos modelos possui uma característica-chave: um único modelo tende a gerar falsos positivos, mas quando vários modelos treinados com dados e arquiteturas diferentes apontam para o mesmo problema, a taxa de falsos positivos cai drasticamente, enquanto a cobertura aumenta. Como Lawson explica: “A taxa de falsos positivos é quase zero, e a cobertura de bugs encontrados é muito alta.”

Seu fluxo de decisão é bastante claro. Todos os problemas críticos e altos devem ser resolvidos primeiro; problemas médios e baixos são avaliados individualmente com base na relação entre “custo de reparo” e “impacto real”, e aqueles que não valem a pena são ignorados para não desperdiçar recursos de desenvolvimento; se um PR contém muitos problemas críticos, ele é descartado e refeito do zero, ao invés de continuar aplicando patches em problemas fundamentais.

A técnica central de revisão de PR de Lawson vem de um estudo que analisa o desempenho de múltiplos modelos na revisão de código: quanto mais diversos forem os modelos utilizados, mais preciso será o relatório final. O princípio por trás é “modelos diversos reduzem viés”: modelos treinados com diferentes backgrounds geram opiniões diferentes sobre o mesmo trecho de código, e a votação majoritária consegue filtrar efetivamente os pontos cegos de um único modelo.

Velocidade reduzida, qualidade aumentada

Após adotar esse fluxo, Lawson constatou na prática: a quantidade de código gerado (número de linhas) não aumentou, e muitas vezes ele descobria bugs antigos que já estavam presentes, obrigando a escrever testes unitários — ou seja, testes automatizados para verificar funcionalidades específicas — levando mais tempo para corrigir problemas antigos do que para avançar com novas funcionalidades.

Esse não era o resultado esperado por ele, mas, sob outro ângulo, é um sinal de que a saúde do código base está sendo reforçada sistematicamente.

Lawson chama esse método de trabalho de “coding com mais qualidade”, ou seja, com cautela, método e foco na qualidade.

Ferramentas de desenvolvimento geralmente priorizam “velocidade” como seu principal diferencial, mas o verdadeiro problema que os engenheiros precisam resolver nunca foi apenas a velocidade. Cada linha de código tem seu custo de manutenção e seu risco de apresentar problemas. Usar IA para escrever código mais lentamente, mas com maior durabilidade e menor probabilidade de falhas, é uma estratégia que prioriza a qualidade ao invés da quantidade.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
StockTradingChallengeUpTo17000U
16.19M Popularidade
#
USStrikesIran
9.3M Popularidade
#
IsraelStrikesIranBTCPlunges
49.26K Popularidade
#
GatePredictionMarketAddsSmartMoneyTracking
14.35M Popularidade
#
InstitutionalCapitalRotatesFromBTCToHYPEAndXRP
14.32M Popularidade

Fixado

Como fazer o programa de IA escrever mais devagar, mas com maior precisão: revisão de PR com múltiplos modelos, para reduzir ao máximo a probabilidade de bugs

LLMs são naturalmente bons em encontrar bugs

Lógica de validação cruzada na revisão por múltiplos modelos

Velocidade reduzida, qualidade aumentada

Tópicos em destaque

StockTradingChallengeUpTo17000U

USStrikesIran

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

InstitutionalCapitalRotatesFromBTCToHYPEAndXRP

Fixado