91% com vulnerabilidades, 94% de agentes de IA suscetíveis a envenenamento, uma verdadeira confusão de segurança

Agentes de IA autônomos estão a penetrar rapidamente nos setores de saúde, finanças e operações empresariais, mas a maior pesquisa de segurança até agora revela: a grande maioria dos agentes em produção apresenta vulnerabilidades graves, e os métodos atuais de avaliação de segurança quase não conseguem lidar com isso.

Recentemente, uma equipe de pesquisa conjunta da Universidade de Stanford, MIT CSAIL, Carnegie Mellon, ITU Copenhaga e NVIDIA descobriu que, entre as 847 implantações de agentes inteligentes autônomos avaliadas, 91% possuem vulnerabilidades de ataque à cadeia de ferramentas, 89,4% apresentam desvio de objetivo após cerca de 30 passos de execução, e 94% dos agentes com memória reforçada enfrentam risco de “envenenamento”. A pesquisa identificou 2.347 vulnerabilidades anteriormente desconhecidas, das quais 23% foram classificadas como graves.

O primeiro autor do artigo, Owen Sakawa, citou o incidente “OpenClaw/Moltbook” de início de 2026 para comprovar que essa ameaça saiu da teoria e entrou na realidade: uma única vulnerabilidade na base de dados da plataforma Moltbook levou à invasão simultânea de 770 mil agentes de IA em funcionamento, cada um com privilégios de acesso a dispositivos, e-mails e arquivos de seus usuários. “Isso não é mais uma ameaça hipotética”, afirmou Sakawa.

Isso constitui um alerta direto para empresas e investidores que estão acelerando a implementação de agentes de IA: os principais frameworks de avaliação de segurança atuais são baseados em modelos de linguagem sem estado, incapazes de identificar vulnerabilidades compostas que surgem na execução de múltiplos passos, o que significa que muitas empresas podem estar subestimando sistematicamente a segurança real de seus agentes de IA. O especialista em psicologia cognitiva e IA, Gary Marcus, comentou: “Agentes autônomos são uma bagunça”.

Mapa de vulnerabilidades: seis categorias de ataque, 2.347 fraquezas conhecidas

A pesquisa abrange os setores de saúde (289 implantações, 34,1%), finanças (247, 29,2%), atendimento ao cliente (198, 23,4%) e geração de código (113, 13,3%).

Foi criada uma classificação de seis tipos de vulnerabilidades específicas para agentes autônomos, incluindo desvio de objetivo e atenuação de comandos, desincronização entre planejador e executor, elevação de privilégios de ferramentas, envenenamento de memória, violações silenciosas de estratégias de múltiplos passos e falhas na delegação.

Na avaliação em ambientes de produção, a manipulação de estado lidera com 612 casos (26,1%), seguida pelo desvio de objetivo com 573 casos (24,4%). O uso indevido de ferramentas e chamadas encadeadas, embora em terceiro lugar em quantidade (489 casos), apresenta a maior gravidade — 198 casos foram classificados como graves, representando a maior proporção entre todas as categorias.

Números ainda mais alarmantes: 67% dos agentes apresentam desvio de objetivo após 15 passos, 84% não conseguem manter estratégias de segurança entre sessões, 73% carecem de mecanismos de detecção de envenenamento de estado, e 58% possuem vulnerabilidades de consistência temporal. A pesquisa também revelou que o efeito do envenenamento de memória leva, em média, 3,7 sessões para se manifestar após a injeção inicial, dificultando ainda mais a detecção de ameaças.

Caso real: 770 mil agentes simultaneamente comprometidos

O caso OpenClaw (antigo Clawdbot e Moltbot) fornece a validação mais direta até agora desse modelo de ameaça.

Desenvolvido por Peter Steinberger, da Áustria, e lançado em novembro de 2025 como um agente de IA de código aberto, acumulou mais de 160 mil estrelas no GitHub em poucas semanas. Possui capacidade de enviar e-mails autonomamente, gerenciar agendas, executar comandos de terminal e implantar código, além de manter memória persistente entre sessões.

A empresa de segurança Astrix Security, usando sua ferramenta de varredura própria, ClawdHunter, descobriu que há 42.665 instâncias do OpenClaw na internet pública, sendo que 8 estão completamente abertas e sem qualquer autenticação.

Segundo a VentureBeat, a equipe de segurança de IA da Cisco descreveu o OpenClaw como “uma inovação em termos de capacidade, mas um pesadelo completo em termos de segurança”. A Kaspersky, em uma auditoria de segurança em janeiro de 2026, identificou 512 vulnerabilidades, das quais 8 eram graves.

O incidente Moltbook é particularmente emblemático.

Essa plataforma social, criada especificamente para agentes OpenClaw, se espalhou viralmente, atraindo mais de 770 mil registros de agentes — usuários informaram seus agentes ao Moltbook, que os registrou autonomamente.

Depois, uma vulnerabilidade na base de dados permitiu que atacantes burlassem a autenticação e injetassem comandos diretamente em qualquer sessão de agente, colocando todos os 770 mil agentes — cada um com privilégios sobre o dispositivo do usuário — em risco simultâneo. A equipe de pesquisa qualificou esse evento como a maior campanha de ataque cruzado a agentes já registrada.

O que o pesquisador Simon Willison chamou de “triângulo mortal” (lethal trifecta) — acesso a dados confidenciais, exposição a conteúdo não confiável e canais de comunicação externos — foi plenamente evidenciado no OpenClaw, tornando os agentes autônomos um vetor de ataque ideal.

Defeitos de arquitetura: por que os agentes de IA são mais frágeis que LLMs

A principal conclusão do estudo é que os desafios de segurança dos agentes autônomos são fundamentalmente diferentes dos dos modelos de linguagem sem estado.

Para modelos de linguagem, a avaliação de segurança foca em “conseguir fazer o modelo dizer conteúdos inseguros”; já para agentes de IA, o problema é “conseguir fazer o agente realizar ações inseguras” — incluindo chamadas de ferramentas com efeito real, modificações de estado que impactam comportamentos futuros e execução de planos que só mostram violações após múltiplos passos.

O estudo ilustra essa lógica com cenários concretos: um agente com permissões de leitura de arquivo (read_file) e requisições HTTP (http_request), que isoladamente parecem conformes às políticas, mas em combinação podem realizar roubo de dados — por exemplo, lendo credenciais de um arquivo de configuração e enviando-as por HTTP para um endpoint externo. Cada passo atende às políticas locais, mas o conjunto realiza um objetivo adverso. Essa questão é chamada de “segurança composicional” (compositional safety).

Em testes com arquiteturas controladas, os pesquisadores avaliaram agentes ReAct, sistemas multiagentes, agentes com memória reforçada e agentes com uso de ferramentas.

Os resultados mostraram que ataques de elevação de privilégios em agentes que usam ferramentas tiveram uma taxa de sucesso de 95%, enquanto ataques de envenenamento em agentes com memória reforçada atingiram 94%.

Mesmo os sistemas multiagentes mais resistentes apresentaram uma taxa de sucesso de 58% em ataques de desvio de objetivo — levando os pesquisadores a concluir que nenhuma das arquiteturas testadas atualmente possui capacidade suficiente de resistir a implantações adversas.

Testes de geração de ataques adaptativos aumentaram ainda mais a preocupação: ataques gerados por reforço de aprendizagem tiveram uma taxa de violação de 79%, um aumento de 25,4% em relação a cenários projetados manualmente (63%), indicando que as ameaças enfrentadas pelos agentes de IA estão além do que as equipes vermelhas humanas conseguem cobrir.

Impacto direto na implantação empresarial: estruturas de proteção ainda imaturas

O time de pesquisa propôs uma linha de base de segurança mínima baseada nos resultados empíricos: obrigar a implantação de monitoramento em tempo de execução para todos os agentes em produção; estabelecer aprovações manuais para operações de cadeia de ferramentas que envolvam acesso a dados e comunicação externa; obrigar uma revisão manual a cada 20-25 passos, para evitar desvios de objetivo que quase certamente surgirão após esse limite; e criptografar e verificar a integridade do estado persistente de agentes com memória reforçada.

Em termos de monitoramento, os resultados indicam que a detecção de ações em nível de passo (single-step) alcança uma precisão de 0,94, a avaliação de sequências de múltiplos passos (multi-step) tem uma pontuação F1 de 0,85, e a detecção de estado (state-level) atinge um F1 de 0,83. Em testes de 30 dias de monitoramento de 127 agentes em produção, o sistema interceptou 4.782 operações, com uma taxa de falsos positivos de 3,7%, sendo que 14,6% das operações marcadas foram confirmadas como ataques reais.

A pesquisa também aponta uma disfunção fundamental na governança de IA: os frameworks atuais focam em auditoria pós-fato, ao invés de aplicar restrições de conformidade em tempo real durante a execução.

Com a implementação de regulamentações como o “Artificial Intelligence Act” da UE e o NIST AI Risk Management Framework dos EUA, a pressão por conformidade e os riscos de segurança só aumentarão. Com a ampla adoção de agentes de IA em cenários de alto risco, a ausência de infraestrutura de segurança adequada se torna um risco sistêmico que não pode ser ignorado nesta nova onda de comercialização de IA.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar