Anthropic apela a proteger os agentes de IA com o princípio de Zero Trust - ForkLog: criptomoedas, IA, singularidade, futuro

AI-agents ИИ агенты 3# Anthropic apela à proteção dos agentes de IA com o princípio Zero Trust

A equipa da Anthropic publicou no blog o guia Claude Zero Trust for AI agents sobre a implementação segura de agentes autónomos de IA em ambientes corporativos. O documento destaca os principais riscos dos sistemas de agentes e a abordagem de cibersegurança para os negócios.

IA acelerou o ciclo de ataques

Segundo a Anthropic, os modelos avançados reduziram o intervalo entre a deteção de vulnerabilidades e a sua exploração de meses para horas. A empresa sugere considerar não apenas os ataques acelerados por IA à infraestrutura, mas também os riscos dos próprios agentes, que podem interpretar objetivos, selecionar ferramentas e executar ações em múltiplas etapas sem participação constante de humanos.

Na base do guia estão os princípios Zero Trust: não confiar por padrão, verificar cada ação e assumir possível comprometimento. A Anthropic cita as recomendações do NIST SP 800-207, publicado em 2020, e uma série de Diretrizes de Implementação Zero Trust, que a NSA começou a lançar em 2026. O guia é apresentado como um quadro prático para equipas de segurança, arquitetos e engenheiros, e não como um esquema de conformidade universal.

Entre as principais ameaças listadas no documento estão intervenções diretas e indiretas via prompt, infecção de ferramentas, abuso de identidade e privilégios, envenenamento de memória e contexto, bem como ataques à cadeia de abastecimento.

O envenenamento direto do prompt é descrito como a introdução de instruções maliciosas através da entrada do utilizador, enquanto o indireto ocorre através de páginas web, emails, documentos e outras fontes externas que o agente processa durante o trabalho.

O documento analisa a substituição de uma ferramenta legítima por uma maliciosa e cadeias de chamadas perigosas, onde meios seguros isolados, em combinação, resultam em riscos. A Anthropic usa conceitos de «alcance de explosão» (blast radius) e «menor agência» (least agency): trata-se não apenas de direitos mínimos de acesso, mas também de uma restrição rigorosa das ações do agente, frequência de chamadas e áreas acessíveis.

Zero Trust para sistemas de agentes

Para proteção, a empresa propõe um modelo de maturidade de três níveis e um conjunto de medidas técnicas básicas. No nível inicial, recomenda-se atribuir a cada instância de agente uma identidade criptográfica única, usar tokens de curta duração, aplicar a política de «negação por padrão» e «gestão de acesso baseada em funções». Para agentes que lidam com entradas não confiáveis, como conteúdo web e documentos, o método de «execução em sandbox» é praticamente obrigatório.

Nos níveis superiores, a Anthropic sugere a aplicação de:

  • padrão mTLS com autenticação mútua entre cliente e servidor usando certificados digitais;
  • identidade vinculada ao hardware via HSM ou TPM, bem como atestação remota.

Chaves API estáticas e senhas comuns de contas de serviço são considerados inadequados mesmo para o nível básico.

Uma grande secção é dedicada à observabilidade. A Anthropic recomenda registar detalhadamente todas as ações do agente, incluindo chamadas de ferramentas, acesso a dados e comunicações externas, e depois transmitir eventos para um SIEM para correlação em tempo real. Entre as métricas principais estão o tempo de permanência (dwell time) e a cobertura. Para sistemas críticos, o tempo alvo de deteção de desvios é de uma hora. A parte do guia também sugere construir uma «matriz de rastreabilidade» para relacionar cada ação do agente com a solicitação original e reconstruir toda a cadeia de decisões.

O futuro do Security Operations Center — agentes sob controlo humano

Na parte de resposta, a Anthropic formula o princípio: automatizar a burocracia em torno do incidente, mas não as decisões-chave. Propõe-se que os agentes e modelos sejam responsáveis pela recolha e triagem inicial de artefactos, condução de investigações paralelas e preparação de um rascunho de relatório pós-incidente. As decisões de contenção, divulgação do incidente e comunicação com clientes devem ficar a cargo de humanos. Este mesmo princípio é aplicado às «operações de proteção» — com menção à transição do clássico SOAR para o agente.

O documento apresenta também indicadores quantitativos. A Anthropic cita o estudo Microsoft Spotlighting, onde a eficácia de ataques indiretos via envenenamento de prompt caiu de mais de 50% para menos de 2%. A empresa também apresenta resultados próprios com «classificadores constitucionais», que, segundo ela, bloqueiam mais de 95% das tentativas de bypass com um crescimento mínimo de falsos positivos.

Na secção sobre cadeia de abastecimento, a Anthropic recomenda usar AI-BOM, OpenSSF Scorecard, auditoria de dependências e análise de acessos potenciais. Como argumento, a empresa cita uma investigação própria, segundo a qual 250 documentos maliciosos são suficientes para inserir um backdoor em modelos de entre 600 milhões e 13 mil milhões de parâmetros.

Por fim, a Anthropic conclui que, para agentes de IA, filtros pontuais e proteção perimetral não são suficientes. Propõe construir a defesa em torno da identidade, privilégios mínimos, dano prévio limitado e verificação contínua das ações. Segundo a avaliação da Anthropic, as organizações melhor posicionadas não serão as com IA mais avançada, mas aquelas com uma arquitetura de segurança mais robusta.

Recordamos que, em junho, a equipa da Anthropic alertou para os riscos de uma autoaperfeiçoamento recursivo da IA.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado