Fluxo de trabalho de segurança de IA de código aberto da Anthropic: sete etapas de identificação automática de vulnerabilidades, validação e geração de patches

Anthropic abriu uma cadeia de automação de segurança cibernética alimentada por Claude, que cobre todo o processo desde a busca por vulnerabilidades, múltiplas verificações até a geração de patches, tudo realizado por uma colaboração de IA. Qualquer equipe de segurança agora pode montar essa estrutura por conta própria.
(Resumindo: Anthropic: o modelo "Mythos Preview" supera especialistas humanos em capacidade de decisão, com uma taxa de sucesso de 64%)
(Complemento: Bloomberg revelou que Claude Mythos foi acessado sem autorização! A vulnerabilidade mais difícil de Anthropic de se defender é sempre a "pessoa")

Índice deste artigo

Alternar

  • Sete fases, uma linha de produção auto-verificável
  • Dois caminhos, uma escolha
  • A parede está sendo perfurada pela mesma ferramenta

A Claude Opus, da Anthropic, descobriu centenas de vulnerabilidades de segurança em diversos repositórios de software de código aberto ao longo do tempo, mesmo após anos de revisão por especialistas, evidenciando os limites estruturais da revisão manual.

Recentemente, a Anthropic open-sourçou toda essa cadeia de automação — busca de vulnerabilidades, múltiplas verificações e geração final de patches — no GitHub, permitindo que qualquer equipe de segurança possa montar, personalizar e adaptar para seu próprio código alvo.

Sete fases, uma linha de produção auto-verificável

Todo o sistema se chama Defending Code Reference Harness, cuja essência é uma cadeia de sete etapas automatizadas:

Build (Construção), Recon (Reconhecimento), Find (Encontrar vulnerabilidades), Verify (Verificar), Dedupe (Eliminar duplicatas), Report (Relatar), Patch (Corrigir).
Cada fase conta com um agente de IA independente, que só transmite as informações essenciais, evitando que as fases subsequentes sejam contaminadas por julgamentos subjetivos das etapas anteriores.

Na fase de Build, o software alvo é compilado em uma imagem com o detector ASAN ativado. ASAN, ou AddressSanitizer, é uma ferramenta que detecta vulnerabilidades de memória — uma espécie de "detector de minas" de segurança de memória — que dispara alertas imediatamente ao detectar acessos ilegais à memória durante a execução.
Essa imagem é compartilhada por todas as fases seguintes, garantindo que cada agente de IA trabalhe no mesmo ambiente de código.

A fase Find é o motor do sistema. N agentes de IA operam em containers isolados, lendo o código-fonte e gerando entradas maliciosas.
Esse método de "criar entradas maliciosas" é, na prática, fuzzing: alimenta o programa com dados estranhos, deformados ou fora dos limites, para ver se ele trava.

Os agentes só submetem uma vulnerabilidade descoberta após conseguir reproduzi-la de forma estável três vezes, com o objetivo de filtrar falsos positivos.
Falsos positivos, de forma simples, são casos em que um comportamento normal é erroneamente identificado como vulnerabilidade, uma das críticas mais comuns às ferramentas de segurança.

A Anthropic enfatiza que o sistema usa múltiplas verificações para garantir que cada vulnerabilidade reportada tenha uma pontuação de confiança e uma gravidade associadas.

Depois vem o Verify. Um novo agente executa o proof-of-concept (PoC) — o menor código executável que demonstra a vulnerabilidade — em um container separado.
Somente os bytes do PoC circulam entre os containers, e o agente de verificação não conhece o raciocínio do agente anterior, garantindo que a conclusão seja realmente independente.

Na fase Report, é gerada uma análise completa de explorabilidade para cada vulnerabilidade, com um agente de avaliação independente verificando se os argumentos do relatório correspondem às linhas de código e resultados reais.
Antes de aplicar um patch candidato, o sistema exige confirmação manual.

Todo o pipeline roda sobre o sandbox gVisor, uma tecnologia de virtualização leve que isola o sistema operacional.
Independentemente do código que os agentes de IA executam dentro do container, eles não têm acesso ao sistema de arquivos do host nem podem se comunicar além da API do Claude, garantindo que nenhuma informação seja vazada.

Dois caminhos, uma escolha

O sistema oferece duas rotas de uso, com níveis de complexidade bastante diferentes, sendo recomendado começar pela mais simples.

Primeiro: habilidades interativas. Basta quatro comandos:

git clone https://github.com/anthropics/defending-code-reference-harness cd defending-code-reference-harness claude /quickstart

Executar o /quickstart leva você por todo o fluxo de demonstração: modelagem de ameaças → varredura estática de vulnerabilidades → classificação e deduplicação manual → geração de patches.
Não é necessário usar containers nesta etapa, ideal para entender o fluxo antes de automatizar.

Segundo: pipeline automatizado. Requer instalação do gVisor, configuração da variável ANTHROPIC_API_KEY, e permite rodar todas as sete fases em um alvo real, gerando relatórios de vulnerabilidades com pontuação de confiança e patches candidatos.
No repositório do GitHub há um exemplo de vulnerabilidade em uma biblioteca chamada drlibs, recomendado para prática antes de aplicar em seu próprio código.

A recomendação da Anthropic é: no primeiro dia, executar o fluxo interativo completo; no segundo, passar para o pipeline automatizado com um alvo em C/C++; e, de terceiro a quinto dia, usar o comando /customize para adaptar para outras linguagens ou tipos de vulnerabilidade.

Há uma frase importante no arquivo: "Equipes bem-sucedidas resistem à tentação de projetar uma linha de produção perfeita antes de começar; primeiro, execute, depois itere."

A parede está sendo perfurada pela mesma ferramenta

Essa assimetria na defesa cibernética é estrutural há muito tempo.
Os atacantes só precisam encontrar uma entrada; os defensores precisam bloquear cada uma delas.

Targets como GhostScript, OpenSC, CGIF — exemplos usados na demonstração — são projetos de código aberto maduros e amplamente implantados, com vulnerabilidades escondidas por décadas que só foram descobertas após Claude Opus analisar o histórico de commits, inferir uma correção incompleta, rastrear a lógica até outro arquivo e montar um PoC executável.
Esse processo não é baseado em regras, mas em raciocínio.

A Anthropic oferece duas rotas: a versão open-source do Defending Code Reference Harness, para equipes que desejam controle total, podendo montar e personalizar; e o Claude Security, uma versão gerenciada comercialmente, sem necessidade de configurar gVisor ou infraestrutura.

A versão open-source oferece transparência e controle, enquanto a versão gerenciada garante uma implementação rápida e sem atritos.
Por trás dessas duas rotas, está a estratégia da Anthropic de posicionar suas ferramentas de defesa como infraestrutura fundamental.

A capacidade de encontrar vulnerabilidades, que antes era exclusiva de grandes organizações com recursos para contratar elite red teams, agora está aberta ao público.
Essa cadeia de automação open-source está quebrando a parede assimétrica entre defesa e ataque, com ambos usando a mesma ferramenta para perfurá-la de lados opostos.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado