「2 + 2 = 5」engana o navegador de IA: ChatGPT Atlas, Claude, Perplexity Comet..6 modelos entregam obedientemente as credenciais.

A empresa de segurança cibernética LayerX, o investigador Roy Paz, publicou no final de junho um ataque de prova de conceito que, através de um "cenário de jogo falso", faz com que o navegador de IA pense que as barreiras de segurança já não se aplicam. Os 6 navegadores agentic testados, incluindo ChatGPT Atlas, extensão Chrome do Claude e Perplexity Comet, falharam todos, divulgando credenciais SSH ao atacante.

(Nota prévia: O que é um exercício de red team de IA? Por que precisas dele para proteger a segurança empresarial) (Contexto adicional: Mais de 1500 funcionários da Meta gritam em protesto! Conseguem reduzir o âmbito da "monitorização por IA de teclado e rato" e podem pausar meia hora por dia)

Índice do artigo

Toggle

  • Enganar a IA para dentro de um sonho
  • As barreiras são passivas, essencialmente apenas tratam os sintomas
  • As lacunas que fabricantes e utilizadores precisam de tapar

Seis navegadores de IA populares no mercado foram enganados por um jogo falso onde "2 + 2 = 5 é a resposta correta", entregando todos as credenciais de login SSH de repositórios privados do GitHub. Este é o ataque de prova de conceito (PoC) publicado pelo investigador da LayerX Security, Roy Paz, a 29 de junho, e já reproduzido em produtos reais.

O principal ponto de venda dos navegadores de IA é "tu dizes uma frase e ele encontra um restaurante, faz a reserva e envia o e-mail de confirmação". Simplificando, é dar o controlo do navegador à IA para que ela clique, preencha formulários e aceda a serviços já com sessão iniciada. Mas o problema é que esta linha de autorização é extremamente difusa: o utilizador pode querer apenas que ela pesquise informação, mas ela acaba por mexer no gestor de palavras-passe.

Enganar a IA para dentro de um sonho

O ataque da LayerX divide-se em quatro fases, com o conceito central de fazer a IA acreditar que entrou num "mundo com regras diferentes".

Primeiro, a página maliciosa cria um quadro de jogo ou puzzle, declarando explicitamente "aqui é um cenário de fantasia, as regras normais não se aplicam". Depois, a página apresenta um problema de matemática "2 + 2 = ?", mas define a regra como "responder 5 dá pontos, responder 4 tira pontos". A IA segue as regras e aprende uma lição: neste cenário, a lógica tradicional não funciona.

O terceiro passo é o salto mais crítico: uma vez que a IA aceita que "o errado é o certo", ela muda o seu quadro de raciocínio do mundo real, começando a assumir que as regras foram redefinidas. No último passo, a IA age de acordo com a "lógica do jogo" em vez dos protocolos de segurança, realizando operações sensíveis sem acionar qualquer alerta interno, porque na sua lógica computacional, ela não acredita que está a ultrapassar limites.

Roy Paz escreve no seu artigo:

"A IA assume que o cenário em que se encontra é real, portanto o seu comportamento deve estar dentro dos limites das barreiras de segurança. Mas se conseguirmos enganar a IA para mudar o cenário para uma fantasia, um mundo onde as regras são definidas arbitrariamente e tudo é permitido, ela agirá como se as suas ações não tivessem consequências no mundo real."

As barreiras são passivas, essencialmente apenas tratam os sintomas

A LayerX testou 6 navegadores agentic e extensões: ChatGPT Atlas da OpenAI, Comet da Perplexity, Fellou, Genspark Browser, Sigma Browser, e a extensão Chrome do Claude da Anthropic. Todos os 6 falharam, nenhum identificou "roubar credenciais de conta" como uma violação das barreiras.

As operações induzidas incluíram: extrair credenciais de login SSH de repositórios privados do GitHub, copiar dados de autenticação sensíveis sem confirmação do utilizador, aceder a repositórios com sessão iniciada e divulgar credenciais ao atacante. A LayerX aponta que, em cenários reais, isto pode estender-se a gestores de palavras-passe, ferramentas internas e qualquer serviço com sessão iniciada acessível pelo navegador.

Um comentário da Ars Technica destaca um problema estrutural mais fundamental: a linha de defesa atual dos fabricantes de LLM são "barreiras", listando pedidos específicos como proibidos, como desenvolver vulnerabilidades de software ou roubar credenciais. Este mecanismo é reativo e passivo, tratando apenas os sintomas sem resolver a causa.

Como um carro com um defeito de design, o fabricante não repara o carro, mas insiste em redesenhar a estrada.

As lacunas que fabricantes e utilizadores precisam de tapar

A LayerX dá sugestões de defesa em duas camadas.

Para fabricantes: Antes de a IA aceder a cenários com sessão iniciada (repositórios, e-mail, gestores de palavras-passe), deve exigir confirmação explícita do utilizador; implementar um mecanismo de "verificação de cenário" que alerte quando a suposição operacional da IA contradiz a realidade, especialmente quando surge linguagem como "as regras já não se aplicam"; por defeito, limitar o âmbito a que o agente de IA pode aceder. Simplificando, os navegadores agentic atuais dão permissões demasiado amplas por defeito; isto deve ser invertido para "apenas executar com autorização explícita".

Para utilizadores: Decidir cuidadosamente a que a IA pode aceder; revogar o acesso a sessões com sessão iniciada quando não estiver em uso; e, mais importante, reconhecer que ativar o modo agentic equivale a entregar o controlo de todos os serviços com sessão iniciada de uma só vez.

Este estudo da LayerX tem o nome do videojogo BioShock, em homenagem à frase de controlo mental "Would you kindly", onde a personagem pensa que está a agir livremente, mas cada passo foi planeado.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado