DeepMind alerta para seis ataques baseados na web que podem sequestrar agentes de IA

Investigadores da Google DeepMind alertaram que a Internet aberta pode ser usada para manipular agentes autónomos de IA e sequestrar as suas ações.

Resumo

  • Investigadores da DeepMind identificaram seis métodos de ataque que podem ser usados para manipular agentes autónomos de IA enquanto navegam e atuam online.
  • O estudo alertou que instruções ocultas, linguagem persuasiva e fontes de dados envenenadas podem influenciar as decisões do agente ou anular salvaguardas.

O estudo intitulado “AI Agent Traps” surge à medida que as empresas implementam agentes de IA para tarefas do mundo real e os atacantes começam a usar IA para operações cibernéticas.

Em vez de se focar em como os modelos são construídos, a investigação olha para os ambientes em que os agentes operam. Identifica seis tipos de armadilhas que tiram partido da forma como os sistemas de IA lêem e agem sobre a informação da web.

As seis categorias de ataque delineadas no artigo incluem armadilhas de injeção de conteúdo, armadilhas de manipulação semântica, armadilhas do estado cognitivo, armadilhas de controlo comportamental, armadilhas sistémicas e armadilhas de human in the loop.

Instruções ocultas e táticas de manipulação subtis

A injeção de conteúdo destaca-se como um dos riscos mais diretos. Instruções ocultas podem ser colocadas dentro de comentários HTML, metadados ou elementos de página disfarçados, permitindo que os agentes leiam comandos que permanecem invisíveis para os utilizadores humanos. Os testes mostraram que estas técnicas podem controlar o comportamento do agente com elevadas taxas de sucesso.

A manipulação semântica funciona de forma diferente, baseando-se na linguagem e no enquadramento em vez de código oculto. Páginas carregadas com formulações autoritárias ou disfarçadas como cenários de investigação podem influenciar a forma como os agentes interpretam tarefas, por vezes fazendo passar instruções nocivas pelas salvaguardas incorporadas.

Outra camada tem como alvo os sistemas de memória. Ao introduzir informação fabricada em fontes em que os agentes confiam para a recuperação, os atacantes podem influenciar as saídas ao longo do tempo, com o agente a tratar dados falsos como conhecimento verificado.

Os ataques de controlo comportamental seguem uma via mais direta ao visar aquilo que um agente realmente faz. Nesses casos, instruções de jailbreak podem ser incorporadas em conteúdo web normal e lidas pelo sistema durante a navegação de rotina. Testes separados mostraram que agentes com permissões de acesso amplas poderiam ser levados a localizar e transmitir dados sensíveis, incluindo palavras-passe e ficheiros locais, para destinos externos.

Os riscos ao nível do sistema estendem-se para além de agentes individuais, com o artigo a alertar que a manipulação coordenada em muitos sistemas automatizados poderia despoletar efeitos em cascata, semelhantes a crises súbitas anteriores no mercado desencadeadas por ciclos de negociação algorítmica.

Os revisores humanos também fazem parte da superfície de ataque, já que saídas cuidadosamente construídas podem parecer suficientemente credíveis para obter aprovação, permitindo que ações nocivas passem pela supervisão sem levantar suspeitas.

Como se defender contra estes riscos?

Para contrariar estes riscos, os investigadores sugerem uma combinação de treino adversarial, filtragem de entradas, monitorização comportamental e sistemas de reputação para conteúdo web. Também apontam para a necessidade de enquadramentos legais mais claros em torno da responsabilidade quando agentes de IA executam ações nocivas.

O artigo não vai até oferecer uma solução completa e argumenta que a indústria ainda carece de uma compreensão partilhada do problema, deixando as defesas atuais dispersas e muitas vezes focadas nas áreas erradas.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar