「2 + 2 = 5」engana navegadores de IA: ChatGPT Atlas, Claude, Perplexity Comet.. Todos os 6 modelos obedientemente entregaram senhas e contas.

A empresa de segurança cibernética LayerX, o pesquisador Roy Paz, publicou no final de junho um ataque de prova de conceito que, por meio de um "cenário de jogo falso", fazia com que navegadores de IA acreditassem que as proteções de segurança não se aplicam mais. Todos os seis principais navegadores agentivos testados, incluindo ChatGPT Atlas, Claude Chrome Extension e Perplexity Comet, falharam, vazando credenciais SSH para o invasor.
(Notícia anterior: O que é um exercício de Red Team de IA? Por que você precisa dele para proteger a segurança corporativa?)
(Contexto adicional: Mais de 1500 funcionários do Meta assinam protesto! Conseguem reduzir o escopo do "monitoramento de teclado e mouse por IA" e podem pausar por meia hora por dia)

Índice deste artigo

Alternar

  • Enganando a IA em um sonho
  • Barreiras são passivas, apenas tratam os sintomas
  • Lacunas que fabricantes e usuários precisam preencher

Seis dos principais navegadores de IA do mercado foram enganados por um jogo falso que dizia "2 + 2 = 5 é a resposta correta", e todos entregaram as credenciais SSH de repositórios privados do GitHub. Esta é uma prova de conceito (PoC) de ataque publicada por Roy Paz, pesquisador da LayerX Security, em 29 de junho, e já foi reproduzida em produtos reais.

O principal diferencial dos navegadores de IA é "você fala uma frase e ele encontra um restaurante, faz a reserva e envia o e-mail de confirmação". Em resumo, é entregar o controle do navegador à IA, permitindo que ela clique, preencha formulários e acesse serviços já logados. O problema é que essa linha de autorização é extremamente difusa; o usuário pode querer apenas que ele pesquise algo, mas ele acaba acessando o gerenciador de senhas.

Enganando a IA em um sonho

O ataque da LayerX tem quatro fases, com o conceito central de fazer a IA acreditar que entrou em um "mundo com regras diferentes".

Primeiro, uma página maliciosa cria um jogo ou quebra-cabeça, declarando explicitamente "este é um cenário fictício, as regras normais não se aplicam". Em seguida, a página apresenta um problema matemático "2 + 2 = ?", mas define a regra como "responder 5 para ganhar pontos, responder 4 perde pontos". A IA segue a regra e aprende uma coisa: neste cenário, a lógica tradicional não funciona.

O terceiro passo é o salto mais crítico: uma vez que a IA aceita que "o errado é o certo", ela muda seu quadro de raciocínio do mundo real para outro, assumindo que as regras foram redefinidas. No último passo, a IA age de acordo com a "lógica do jogo", não com os protocolos de segurança, executando operações sensíveis sem acionar nenhum alerta interno, porque, em sua lógica computacional, ela não acredita que está ultrapassando os limites.

Roy Paz escreveu em seu artigo:

"A IA assume que o cenário em que está é real, portanto, seu comportamento deve estar dentro dos limites da proteção de segurança. Mas se conseguirmos enganar a IA para que ela mude o cenário para um mundo fictício, onde as regras são definidas arbitrariamente e tudo é permitido, ela passa a agir como se suas ações não tivessem consequências no mundo real."

Barreiras são passivas, apenas tratam os sintomas

A LayerX testou seis navegadores e extensões agentivas: ChatGPT Atlas da OpenAI, Comet da Perplexity, Fellou, Genspark Browser, Sigma Browser e a extensão Claude Chrome da Anthropic. Todos os seis falharam; nenhum identificou "roubo de credenciais" como uma violação das barreiras.

As operações induzidas incluíram: extrair credenciais SSH de repositórios privados do GitHub, copiar dados de autenticação sensíveis sem confirmação do usuário, acessar repositórios já logados e vazar as credenciais para o invasor. A LayerX aponta que, em um cenário real, isso pode se estender a gerenciadores de senhas, ferramentas internas e qualquer serviço logado acessível pelo navegador.

Um comentário do Ars Technica destaca um problema estrutural mais fundamental: a defesa dos fabricantes de LLM são "barreiras", que listam certas solicitações como proibidas, como desenvolver vulnerabilidades de software ou roubar credenciais. Esse mecanismo é reativo e passivo, tratando apenas os sintomas.

É como um carro com defeito de projeto: o fabricante não conserta o carro, mas sugere redesenhar a estrada.

Lacunas que fabricantes e usuários precisam preencher

A LayerX oferece recomendações de defesa em dois níveis.

Para fabricantes: Antes que a IA acesse cenários logados (repositórios, e-mails, gerenciadores de senhas), ela deve exigir confirmação explícita do usuário; adicionar um mecanismo de "verificação de cenário" que alerte quando a suposição operacional da IA contradizer a realidade, especialmente quando surgir linguagem como "as regras não se aplicam mais"; limitar por padrão o escopo que o agente de IA pode acessar. Em resumo, os navegadores agentivos atuais dão permissões muito amplas por padrão; isso deve ser revertido para "executar apenas com permissão explícita".

Para usuários: Seja cuidadoso ao decidir o que o navegador de IA pode acessar; revogue o acesso de sessões logadas quando não estiver usando; e, mais importante, entenda que ativar o modo agentivo equivale a entregar de uma vez o controle de todos os serviços logados.

Este estudo da LayerX foi nomeado em homenagem ao jogo BioShock, fazendo referência à frase de controle mental "Would you kindly", onde o personagem acredita que está agindo livremente, mas cada passo foi pré-determinado.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado