Fluxo de trabalho de segurança de IA de código aberto da Anthropic: sete fases de detecção automática de vulnerabilidades, validação e geração de patches

Anthropic abriu uma cadeia de automação de segurança cibernética alimentada por Claude, que cobre todo o sistema desde a detecção de vulnerabilidades, múltiplas verificações até a geração de patches, tudo realizado por uma colaboração de IA. Qualquer equipe de segurança pode agora montar e usar essa solução por conta própria.
(Resumindo: Anthropic: o modelo "Mythos Preview" supera especialistas humanos em capacidade de decisão, com uma taxa de sucesso de até 64%)
(Complemento: Bloomberg revelou que Claude Mythos foi acessado sem autorização! A vulnerabilidade mais difícil de Anthropic de proteger é sempre a "pessoa")

Índice deste artigo

Alternar

  • Sete fases, uma linha de produção auto-verificável
  • Dois caminhos, uma única escolha
  • A parede está sendo perfurada pela mesma ferramenta

Claude Opus, da Anthropic, descobriu centenas de vulnerabilidades de segurança em diversos repositórios de software de código aberto ao longo do tempo, mesmo após anos de revisão por especialistas, evidenciando os limites estruturais da revisão manual.

Recentemente, a Anthropic open-sourçou toda essa cadeia de automação — que detecta vulnerabilidades, realiza múltiplas verificações e gera patches finais — no GitHub, permitindo que qualquer equipe de segurança configure, personalize e adapte ao seu próprio código alvo.

Sete fases, uma linha de produção auto-verificável

Todo o sistema é chamado de Defending Code Reference Harness, e sua essência é uma cadeia de sete etapas automatizadas:

Build (Construção), Recon (Reconhecimento), Find (Encontrar vulnerabilidades), Verify (Verificar), Dedupe (Eliminar duplicatas), Report (Relatar), Patch (Corrigir). Cada fase conta com um agente de IA independente, que só transmite informações essenciais, evitando que a lógica subjetiva de uma fase influencie a próxima.

Na fase de Build, o software alvo é compilado em uma imagem com um detector ASAN ativado. ASAN, ou AddressSanitizer, é uma ferramenta que detecta vulnerabilidades de memória — se o programa acessar uma memória inválida durante a execução, ela dispara um alerta imediatamente. Essa imagem é compartilhada por todas as fases subsequentes, garantindo que cada agente de IA trabalhe no mesmo ambiente de código.

A fase Find é o motor do sistema. N agentes de IA operam em containers isolados, lendo o código-fonte e gerando entradas maliciosas. Essa abordagem, de forma simples, é fuzzing: alimenta o programa com dados estranhos, deformados ou fora dos limites, para verificar se ele trava.

Os agentes só enviam uma vulnerabilidade descoberta após conseguir reproduzi-la de forma estável três vezes, filtrando falsos positivos. Falsos positivos, de modo geral, são comportamentos normais interpretados erroneamente como vulnerabilidades, uma crítica comum às ferramentas de segurança.

A Anthropic enfatiza que o sistema usa múltiplas verificações para garantir que cada vulnerabilidade reportada tenha uma pontuação de confiança e uma gravidade associadas.

Depois vem o Verify. Um novo agente executa o trecho de prova de conceito (PoC) em um container separado, ou seja, o "mínimo código executável que prova a existência da vulnerabilidade". Apenas os bytes do PoC circulam entre os containers, e o agente de verificação não conhece o raciocínio do agente anterior, garantindo independência nas conclusões.

Na fase de Report, é gerada uma análise completa de explorabilidade para cada vulnerabilidade, com um agente de avaliação independente verificando se os argumentos do relatório correspondem às linhas de código e resultados reais. Antes de gerar um patch candidato, o sistema exige confirmação manual.

Todo o pipeline roda sobre o sandbox gVisor. Em termos simples, gVisor é uma tecnologia de virtualização leve que isola o sistema operacional, impedindo que agentes de IA no container acessem o sistema de arquivos do host ou tenham acesso à rede além da API do Claude, evitando vazamentos de dados.

Dois caminhos, uma única escolha

O sistema oferece duas rotas de uso, com níveis de complexidade bastante diferentes, sendo recomendado começar pela mais simples.

Primeira: habilidades interativas. Basta quatro comandos:

git clone https://github.com/anthropics/defending-code-reference-harness cd defending-code-reference-harness claude /quickstart

Executar o comando /quickstart leva você por todo o fluxo de demonstração: modelagem de ameaças → varredura estática de vulnerabilidades → classificação e deduplicação manual → geração de patches. Não é necessário ambiente de container nesta etapa, ideal para entender o fluxo antes de automatizar.

Segunda: cadeia de automação (Pipeline Autônomo). Requer instalação do gVisor, configuração da variável ANTHROPIC_API_KEY, e permite executar todas as sete fases em um alvo real, gerando relatórios de vulnerabilidades com pontuação de confiança e patches candidatos. O repositório no GitHub inclui uma biblioteca de exemplos vulneráveis chamada drlibs, recomendada para prática antes de aplicar ao seu próprio código.

A recomendação da Anthropic é: no primeiro dia, executar o fluxo completo de forma interativa; no segundo, passar para o pipeline automatizado com um projeto C/C++; e, de dia 3 a 5, usar o comando /customize para adaptar a ferramenta a outras linguagens ou tipos de vulnerabilidade.

Há uma frase importante no material: "Equipes bem-sucedidas resistem à tentação de projetar uma cadeia perfeita antes de começar; primeiro, execute, depois itere."

A parede está sendo perfurada pela mesma ferramenta

Essa assimetria na defesa cibernética é estrutural há muito tempo. Os atacantes só precisam encontrar uma entrada; os defensores precisam bloquear cada brecha.

Targets como GhostScript, OpenSC, CGIF — todos projetos de código aberto maduros e amplamente utilizados — escondem vulnerabilidades há décadas que permanecem não detectadas por revisão manual, até que Claude Opus leia o histórico de commits, deduza uma correção incompleta, rastreie a lógica até outro arquivo e construa um PoC executável. Esse processo não é baseado em regras, mas em raciocínio.

A Anthropic oferece duas rotas: a versão open-source do Defending Code Reference Harness, para equipes que desejam controle total, podendo montar e personalizar; e o Claude Security, uma versão comercial totalmente gerenciada, sem necessidade de configurar gVisor ou infraestrutura.

A versão open-source oferece transparência e controle, enquanto a versão gerenciada garante uma implementação rápida e sem complicações. Por trás dessas opções, está a estratégia da Anthropic de posicionar suas ferramentas de defesa como infraestrutura fundamental.

A capacidade de encontrar vulnerabilidades, que antes era privilégio de grandes organizações com recursos para contratar elite red teams, agora é acessível a qualquer um, graças à cadeia de automação open-source. A parede assimétrica entre atacantes e defensores está sendo perfurada por uma mesma ferramenta, de ambos os lados.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado