Anthropic pediu para proteger agentes de IA com o princípio de Zero Trust - ForkLog: criptomoedas, IA, singularidade, futuro

AI-agents ИИ агенты 3# Anthropic defende proteger agentes de IA com o princípio Zero Trust

A equipe da Anthropic publicou em seu blog o guia Zero Trust for AI agents sobre a implantação segura de agentes autônomos de IA em ambientes corporativos. O documento destaca os principais riscos dos sistemas baseados em agentes e a abordagem de cibersegurança para os negócios.

IA acelerou o ciclo de ataques

De acordo com a Anthropic, modelos avançados reduziram o intervalo entre a descoberta de vulnerabilidades e sua exploração de meses para horas. A empresa sugere considerar não apenas ataques acelerados por IA na infraestrutura, mas também os riscos dos próprios agentes, que podem interpretar objetivos, escolher ferramentas e executar ações em múltiplas etapas sem participação constante de humanos.

Na base do guia estão os princípios do Zero Trust: não confiar por padrão, verificar cada ação e partir da possibilidade de comprometimento. A Anthropic cita recomendações do NIST SP 800-207, publicado em 2020, e uma série de Diretrizes de Implementação Zero Trust, que a NSA começou a lançar em 2026. O guia é apresentado como uma estrutura prática para equipes de segurança, arquitetos e engenheiros, e não como um esquema de conformidade universal.

Entre as principais ameaças listadas no documento estão intervenções diretas e indiretas via prompt, infecção de ferramentas, abuso de identidade e privilégios, envenenamento de memória e contexto, além de ataques à cadeia de suprimentos.

O envenenamento direto do prompt é descrito como a inserção de instruções maliciosas através da entrada do usuário, enquanto o indireto ocorre por meio de páginas web, e-mails, documentos e outras fontes externas que o agente processa durante o trabalho.

O documento analisa a substituição de uma ferramenta legítima por uma maliciosa e cadeias de chamadas perigosas, onde meios seguros isolados, em combinação, resultam em riscos. A Anthropic usa conceitos de “ raio de explosão” (blast radius) e “menor agência” (least agency): trata-se não apenas de direitos mínimos de acesso, mas de uma restrição rígida às ações do agente, à frequência de chamadas e às áreas às quais ele pode acessar.

Zero Trust para sistemas de agentes

Para proteção, a empresa propõe um modelo de maturidade em três níveis e um conjunto de medidas técnicas básicas. No nível inicial, recomenda-se atribuir a cada instância de agente uma identidade criptográfica única, usar tokens de curta duração, aplicar “negação por padrão” e “controle de acesso baseado em papéis”. Para agentes que lidam com entradas não confiáveis, como conteúdo web e documentos, o método de “execução em sandbox” é praticamente obrigatório.

Nos níveis superiores, a Anthropic sugere o uso de:

  • padrão mTLS com autenticação mútua entre cliente e servidor usando certificados digitais;
  • identidade vinculada ao hardware via HSM ou TPM, além de atestação remota.

Chaves API estáticas e senhas comuns de contas de serviço são consideradas inadequadas mesmo para o nível básico.

Uma grande seção é dedicada à observabilidade. A Anthropic recomenda registrar detalhadamente todas as ações do agente, incluindo chamadas de ferramentas, acesso a dados e comunicações externas, e transmitir esses eventos para um SIEM para correlação em tempo real. Entre as métricas principais estão dwell time e cobertura. Para sistemas críticos, o tempo alvo de detecção de desvios é de uma hora. O documento também sugere construir uma “matriz de rastreabilidade” para relacionar cada ação do agente à solicitação original e reconstruir toda a cadeia de decisões.

O futuro do Security Operations Center — agentes sob controle humano

Na parte de resposta, a Anthropic formula o princípio: automatizar a burocracia ao redor do incidente, mas não as decisões-chave. Aos agentes e modelos, cabe a coleta e triagem inicial de artefatos, condução de investigações paralelas e preparação de um rascunho de post-mortem. As decisões de contenção, divulgação do incidente e comunicação com clientes devem ficar a cargo de humanos. Essa abordagem também se aplica às “operações de defesa” — com menção à transição do clássico SOAR para o uso de agentes.

O documento apresenta também indicadores quantitativos. A Anthropic cita o estudo Microsoft Spotlighting, no qual a eficácia de ataques indiretos por envenenamento de prompt caiu de mais de 50% para menos de 2%. A empresa também apresenta seus próprios resultados com “classificadores constitucionais”, que, segundo ela, bloqueiam mais de 95% das tentativas de bypass com um mínimo de falsos positivos.

Na seção sobre cadeia de suprimentos, a Anthropic recomenda usar AI-BOM, OpenSSF Scorecard, auditoria de dependências e análise de acessos potenciais. Como argumento, a empresa cita sua própria pesquisa, segundo a qual 250 documentos maliciosos são suficientes para inserir um backdoor em modelos de 600 milhões a 13 bilhões de parâmetros.

Por fim, a Anthropic conclui que, para agentes de IA, filtros pontuais e proteção perimetral não são suficientes. A proteção deve ser construída em torno da identidade, dos privilégios mínimos, de danos previamente limitados e de verificações constantes das ações. Segundo a avaliação da Anthropic, as organizações melhor posicionadas não serão aquelas com IA mais avançada, mas aquelas com uma arquitetura de segurança mais robusta.

Lembrando que, em junho, a equipe da Anthropic alertou sobre os riscos de uma autoaperfeiçoamento recursivo da IA.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários