前微软资深工程师 Nolan Lawson 使用 Claude、Codex、Cursor Bugbot 三个模型同步审查 PR，交叉验证将误报率压到接近零。（前情提要：Claude Code 宣布每周 Token 使用上限增加 50%！为期两个月 Anthropic 争夺开发者生态）（背景补充：Stripe 启动 AI 代理全自动支付测试：通过 x402 支持 Base 链 USDC 付款）本文目录切换 LLM 天生擅长找 bug 多模型审查的交叉验证逻辑速度下降，品质上升我们知道 AI

動區BlockTempo

2026-05-26 04:40:19

Anterior engenheiro sênior da Microsoft Nolan Lawson usa os modelos Claude, Codex e Cursor Bugbot para revisar PRs de forma sincronizada, verificando cruzadamente para reduzir a taxa de falsos positivos quase a zero.
(Resumindo: Claude Code anuncia aumento de 50% no limite semanal de tokens por dois meses! Anthropic tenta dominar o ecossistema de desenvolvedores)
(Informação adicional: Stripe inicia testes de pagamento automático com AI Agent: suporte ao pagamento USDC na cadeia Base via x402)

Índice deste artigo

Alternar

LLMs são naturalmente bons em encontrar bugs
Lógica de verificação cruzada com múltiplos modelos
Velocidade reduzida, qualidade aumentada

Sabemos que a vantagem do AI na codificação é “gerar rapidamente uma grande quantidade de código”, mas a precisão ainda é questionável. Nolan Lawson, ex-engenheiro sênior da Microsoft e Salesforce, documentou em seu blog um novo fluxo de trabalho: ele usa múltiplos grandes modelos de linguagem para revisar simultaneamente cada pull request (pedido de fusão de código, ou seja, cada envio de novo código ao projeto), com o objetivo de verificar cruzadamente e identificar bugs reais, ao invés de simplesmente gerar mais código rapidamente.

Esse fluxo não aumentou a quantidade de código produzida, mas melhorou significativamente sua qualidade.

LLMs são naturalmente bons em encontrar bugs

O projeto Glasswing, lançado pela Anthropic neste ano (atualização pública do sistema Mythos), fornece uma base de dados direta para essa lógica.

O sistema permite que agentes de LLM escaneiem em larga escala códigos open source reais. Como resultado: após escanear mais de 1.000 projetos open source, o sistema estimou a descoberta de 6.202 vulnerabilidades de alta severidade ou críticas, totalizando 23.019 vulnerabilidades (incluindo de baixa severidade). Destas, 1.752 vulnerabilidades verificadas por empresas independentes de segurança tiveram 90,6% confirmadas como problemas reais, e 62,4% eram de alta severidade ou críticas.

Esses números indicam uma mudança fundamental: encontrar bugs deixou de ser o gargalo, agora o foco é verificar e corrigir.

No relatório de pesquisa, a Anthropic afirma claramente: “O progresso na segurança de software, que antes era limitado pela velocidade de encontrar vulnerabilidades, agora é limitado pela velocidade de verificar, revelar e corrigir.” Em outras palavras, a IA já mudou o gargalo do problema de “descoberta” para “capacidade de processamento”.

Lógica de verificação cruzada com múltiplos modelos

A abordagem central de Lawson é fazer múltiplos modelos de diferentes fornecedores revisarem o PR simultaneamente, ao invés de depender de um único modelo.

Seu conjunto de ferramentas inclui Claude Code, Codex da OpenAI e Cursor Bugbot, que revisam de forma independente o mesmo pull request, e depois consolidam todos os resultados, classificados em quatro níveis de severidade: crítico, alto, médio e baixo.

Essa estratégia de verificação cruzada com múltiplos modelos tem uma característica-chave: um único modelo pode gerar falsos positivos facilmente, mas quando vários modelos treinados com dados e arquiteturas diferentes apontam para o mesmo problema, a taxa de falsos positivos cai drasticamente, aumentando a cobertura. Como Lawson explica: “A taxa de falsos positivos é quase zero, e a cobertura de bugs encontrados é muito alta.”

Seu fluxo de decisão é bastante claro. Todos os problemas críticos e altos devem ser resolvidos primeiro; problemas médios e baixos são avaliados individualmente quanto ao “custo de reparo” e ao “impacto real”, e aqueles que não valem a pena são ignorados para não desperdiçar recursos de desenvolvimento; se um PR tem muitos problemas críticos, ele é descartado e refeito do zero, ao invés de continuar aplicando patches em problemas fundamentais.

A técnica de revisão de PR de Lawson vem de um estudo que analisa o desempenho de múltiplos modelos na revisão de código: quanto mais diversos forem os modelos utilizados, mais preciso será o relatório final. O princípio por trás é “modelos diversos reduzem viés”: diferentes modelos treinados com backgrounds distintos têm tendências diferentes ao avaliar o mesmo trecho de código, e a votação majoritária consegue filtrar efetivamente os pontos cegos de cada um.

Velocidade reduzida, qualidade aumentada

Após adotar esse fluxo, os resultados práticos de Lawson foram: a quantidade de código gerado (número de linhas) não aumentou, e muitas vezes ele encontrou bugs antigos que já estavam presentes, obrigando a escrever testes unitários — automações que verificam funcionalidades específicas —, levando mais tempo para corrigir problemas antigos do que para avançar com novas funcionalidades.

Esse não era o resultado esperado, mas, sob outro ângulo, indica que a saúde do código base está sendo reforçada sistematicamente.

Lawson chama esse método de trabalho de “coding com mais qualidade e vibe mais cuidadosa”, uma abordagem cautelosa, metodológica e orientada à qualidade.

Ferramentas de desenvolvimento geralmente priorizam “velocidade” como seu principal diferencial, mas o verdadeiro problema que os engenheiros precisam resolver nunca foi só acelerar. Cada linha de código tem seu custo de manutenção, seu risco de falha. Usar IA para escrever código mais lentamente, mas com maior durabilidade e menor probabilidade de problemas, é uma estratégia que prioriza a qualidade ao invés da velocidade.

USDC0,02%

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

Adicionar um comentário

Sem comentários

Tendências
Ver projetos
#
StockTradingChallengeUpTo17000U
16.2M Popularidade
#
USStrikesIran
9.31M Popularidade
#
IsraelStrikesIranBTCPlunges
49.41K Popularidade
#
GatePredictionMarketAddsSmartMoneyTracking
13.79M Popularidade
#
InstitutionalCapitalRotatesFromBTCToHYPEAndXRP
14.33M Popularidade

Fixado

sitemap

Como fazer o programa de IA escrever mais devagar, mas com mais precisão: revisão de PR com múltiplos modelos, para reduzir ao máximo a probabilidade de bugs

LLMs são naturalmente bons em encontrar bugs

Lógica de verificação cruzada com múltiplos modelos

Velocidade reduzida, qualidade aumentada

Tendências

StockTradingChallengeUpTo17000U

USStrikesIran

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

InstitutionalCapitalRotatesFromBTCToHYPEAndXRP

Fixado