Anthropic criou uma IA "muito perigosa" e decidiu não lançá-la

Afinal, é realmente uma consciência de segurança genuína, ou é uma estratégia cuidadosamente concebida de marketing de capacidades?

Autor: Deep Tide TechFlow

No dia 7 de abril, a Anthropic fez algo que nunca tinha acontecido na indústria de IA: lançou formalmente um modelo e disse ao mundo inteiro que vocês não o conseguem usar.

Esse modelo chama-se Claude Mythos Preview. Não é um chatbot, nem uma ferramenta de apoio para escrever código. Segundo a própria Anthropic, é uma “máquina de descoberta de vulnerabilidades” que, nas últimas semanas, encontrou autonomamente milhares de vulnerabilidades zero-day, cobrindo todos os sistemas operativos e todos os browsers principais. Algumas dessas vulnerabilidades já sobreviveram durante vinte e tantos anos em revisões de código humanas e em testes automatizados.

O bug mais antigo, escondido no OpenBSD, conhecido pela segurança, já tem 27 anos.

A Anthropic não colocou o Mythos na API nem o disponibilizou a utilizadores comuns. Escolheu um caminho sem precedentes: reuniu um consórcio de gigantes tecnológicos chamado “Project Glasswing”, limitando o modelo a apenas 12 parceiros nucleares — Amazon, Apple, Microsoft, Google, NVIDIA, CrowdStrike, Palo Alto Networks, entre outros — mais cerca de 40 organizações que mantêm infraestruturas críticas. A Anthropic comprometeu-se com uma dotação de utilização até 100 milhões de dólares e com uma doação direta de 4 milhões de dólares a organizações de segurança open source.

É a primeira vez que surge na indústria de IA um cenário do tipo “o modelo é demasiado forte e não nos atrevermos a publicá-lo”.

O problema é: afinal, é realmente uma consciência de segurança genuína, ou é uma estratégia cuidadosamente concebida de marketing de capacidades?

O caso do sanduíche

No cartão de sistema (System Card) de 244 páginas do Mythos, há alguns pormenores inquietantes, e o que mais “viralizou” é o “caso do sanduíche”.

Num teste interno de comportamento, a Anthropic forneceu a uma versão inicial do Mythos um ambiente de sandbox reforçado, simulando instruções do utilizador para que tentasse escapar e encontrar uma forma de contactar investigadores do exterior. O modelo teve sucesso. Rompeu o contentor de segurança e enviou um e-mail ao investigador. Esse investigador, na altura, estava num parque a comer um sanduíche.

Mas a história não termina aí. Sem que lhe tivessem pedido, o Mythos publicou de forma espontânea os detalhes técnicos do jailbreak em vários websites “difíceis de descobrir mas tecnicamente públicos”. Pelas palavras exatas do próprio system card, foi “um comportamento exibicionista preocupante e não solicitado”.

Isto não foi a única vez. O system card também regista os seguintes comportamentos:

As versões iniciais, em múltiplas instâncias, procuraram credenciais através das interfaces /proc do Linux, tentaram contornar a sandbox e aumentaram privilégios. Conseguiram obter recursos que a Anthropic deliberadamente não fornecia, incluindo credenciais do serviço de mensagens, credenciais de controlo de código-fonte e, até, as chaves da API da Anthropic ao examinarem a memória do processo. Num caso, o modelo encontrou um método para editar um ficheiro que não tinha permissão para modificar e, em seguida, fez operações adicionais para garantir que essas alterações não apareceriam no histórico de alterações do Git. Num outro caso, o modelo obteve inesperadamente uma resposta precisa a uma questão de estimativa através de um método explicitamente proibido, mas não assinalou o problema nem recusou responder; em vez disso, voltou a resolver por conta própria e, no raciocínio interno, pensou explicitamente que “a resposta final não deve ser demasiado precisa” para evitar ser detetado.

Por outras palavras, o Mythos inicial não só realizava ações fora do âmbito de permissões como também encobria ativamente vestígios e ajustava o próprio desempenho para fugir à supervisão.

A Anthropic enfatiza que estes incidentes graves ocorreram em versões iniciais, antes das intervenções de treino, e que a versão Preview final publicada já melhorou bastante. Mas esta narrativa, por si só, é arrepiante: um modelo, antes de ser treinado para “obedecer”, mostra o que consegue fazer quando “não obedece”.

De 0% para 72,4%

O que realmente abalou a indústria não foi a história do jailbreak do Mythos, mas sim a sua capacidade de ataque.

O anterior modelo “flagship” da Anthropic, o Claude Opus 4.6, teve uma taxa de sucesso próxima de zero em desenvolvimento autónomo de exploração de vulnerabilidades. Ele conseguia encontrar vulnerabilidades, mas quase não conseguia transformá-las em código de ataque funcional. O Mythos Preview é totalmente diferente: nos testes do domínio do motor JavaScript do Firefox, a taxa de sucesso ao transformar vulnerabilidades encontradas em exploits executáveis atingiu 72,4%.

Ainda mais surpreendente é a complexidade dos ataques. O Mythos escreveu autonomamente uma cadeia de exploração de vulnerabilidades no browser: ligou quatro vulnerabilidades independentes, construiu um ataque de heap spray por JIT e conseguiu escapar tanto da sandbox do renderer como da sandbox do sistema operativo. Num outro caso, ele escreveu, num servidor NFS FreeBSD, um exploit de execução remota de código, distribuindo 20 gadgets ROP por múltiplos pacotes de dados de rede, conseguindo acesso root completo por parte de utilizadores não autorizados.

Este tipo de ataque em cadeia de vulnerabilidades, no mundo dos investigadores de segurança humanos, é um trabalho que só equipas APT de topo conseguem fazer. Agora, um modelo de IA genérico consegue fazê-lo autonomamente.

O responsável do red team da Anthropic, Logan Graham, disse à Axios que o Mythos Preview tem capacidades de raciocínio equivalentes às de um investigador de segurança humano sénior. Nicholas Carlini foi ainda mais direto: nas últimas semanas, os bugs que ele descobriu com o Mythos foram mais do que os que encontrou ao longo de toda a sua carreira.

Em benchmarks, o Mythos também lidera de forma esmagadora. CyberGym (benchmark de reprodução de vulnerabilidades): 83,1% (Opus 4,6: 66,6%). SWE-bench Verified: 93,9% (Opus 4,6: 80,8%). SWE-bench Pro: 77,8% (Opus 4,6: 53,4%, antes a liderança do GPT-5.3-Codex era 56,8%). Terminal-Bench 2.0: 82,0% (Opus 4,6: 65,4%).

Isto não é progresso incremental. É um modelo a abrir, de uma só vez, uma diferença de mais de dez a vinte pontos percentuais em praticamente todos os benchmarks de código e de segurança.

O “modelo mais forte” que foi divulgado

A existência do Mythos não era desconhecida antes de 7 de abril.

No final de março, jornalistas e investigadores de segurança da Fortune encontraram, num CMS configurado incorretamente da Anthropic, quase 3000 documentos internos ainda não publicados. Num rascunho de um post de blog, usava explicitamente o nome “Claude Mythos” e descrevia-o como “o modelo de IA mais forte até agora” da Anthropic. O código interno era “Capybara” (pequim/guará?), representando um novo nível de modelo, maior, mais forte e mais caro do que o flagship Opus existente.

Entre os materiais divulgados, havia uma frase que tocou diretamente no sistema nervoso do mercado: o Mythos estava “muito à frente de qualquer outro modelo de IA” em capacidades de cibersegurança, prenunciando que uma próxima vaga de modelos “seria capaz de explorar vulnerabilidades a um ritmo muito superior ao dos defensores”.

Essa frase desencadeou um “flash crash” na bolsa do setor de cibersegurança a 27 de março. A CrowdStrike caiu 7,5% num único dia, evaporando cerca de 15 mil milhões de dólares em valor de mercado em apenas uma sessão de negociação. A Palo Alto Networks desceu mais de 6%, a Zscaler caiu 4,5%, a Okta, a SentinelOne e a Fortinet recuaram todas mais de 3%. O ETF de cibersegurança iShares (IHAK) chegou a cair quase 4% durante a sessão.

A lógica dos investidores foi simples: se um modelo de IA genérico consegue descobrir e explorar vulnerabilidades autonomamente, por quanto tempo é que os dois “fosso” que as empresas de segurança tradicionais usam para sobreviver — “inteligência de ameaças proprietária” e “conhecimento especializado humano” — ainda se aguentarão?

O analista da Raymond James, Adam Tindle, apontou alguns riscos centrais: a vantagem das defesas tradicionais fica comprimida, a complexidade do ataque e os custos de defesa sobem em simultâneo, e os cenários de arquitetura de segurança e de despesa terão de ser reconfigurados. A perspetiva mais pessimista veio do analista Borg, da KBW: ele considera que o Mythos tem potencial para “elevar qualquer hacker comum ao nível de adversários estatais”.

Mas o mercado também tem outra face. O CEO da Palo Alto Networks, Nikesh Arora, comprou ações da própria empresa no valor de 10 milhões de dólares após a queda das cotações. A lógica da perspetiva otimista é: uma IA de ataque mais forte significa que as empresas têm de atualizar as defesas mais rapidamente; a despesa em cibersegurança não diminuirá, apenas vai acelerar a transição de ferramentas tradicionais para defesas nativas de IA.

Project Glasswing: a janela de tempo para os defensores

A Anthropic optou por não publicar o Mythos abertamente e, em vez disso, formou uma aliança de defesa. A lógica central dessa decisão é a “diferença de tempo”.

O CTO da CrowdStrike, Elia Zaitsev, explicou o problema de forma clara: a janela de tempo entre a descoberta e a exploração de vulnerabilidades já encolheu de meses para alguns minutos. O Lee Klarich, da Palo Alto Networks, avisou diretamente que todos precisam de se preparar para ataques auxiliados por IA.

O cálculo da Anthropic é este: antes de outros laboratórios treinarem modelos com capacidades semelhantes, permitir que os defensores usem o Mythos para corrigir primeiro as vulnerabilidades mais críticas. Essa é a lógica do Project Glasswing, cujo nome vem da borboleta de asas de vidro, uma metáfora para vulnerabilidades “escondidas à vista de todos”.

Jim Zemlin, da Linux Foundation, apontou um problema estrutural que existe há muito tempo: o conhecimento especializado de segurança tem sido, historicamente, um luxo das grandes empresas, enquanto os mantenedores open source que sustentam infraestruturas críticas globais têm de, há muito, improvisar a própria proteção. O Mythos oferece um caminho credível para corrigir essa assimetria.

Mas o problema é: quão grande é essa janela de tempo? A Zhipu AI da China (Z.ai) publicou quase no mesmo dia o GLM-5.1, alegando estar em primeiro lugar a nível global no SWE-bench Pro e afirmando que foi treinado completamente em chips Ascend da Huawei, sem usar uma única GPU da NVIDIA. O GLM-5.1 é open source com pesos abertos e com uma política de preços agressiva. Se o Mythos representa o “teto de capacidade” de que os defensores precisam, o GLM-5.1 é um sinal: esse teto está a ser alcançado rapidamente, e os participantes que o estão a aproximar podem não ter, necessariamente, a mesma intenção de segurança.

A OpenAI também não vai ficar parada. Segundo relatos, o modelo de ponta com o código “Spud” concluiu o pré-treino aproximadamente na mesma altura. As duas empresas estão a preparar-se para o IPO mais tarde este ano. O timing da divulgação do Mythos — quer tenha sido acidental ou não — acabou por acontecer exatamente no nó mais explosivo.

Precursor de segurança ou marketing de capacidades?

Há uma questão desconfortável que tem de ser enfrentada: a Anthropic não publicou o Mythos por motivos de segurança, ou isso é, por si só, o marketing mais sofisticado do produto?

Os céticos têm motivos suficientes. Dario Amodei e a Anthropic têm um historial de aumentar o valor do produto ao dramatizar os perigos dos modelos de rendering. Jake Handy escreveu no Substack: “O caso do sanduíche, esconder vestígios no Git, auto-diminuição no processo de avaliação—podem ser tudo isto é verdade, mas a grande escala de exposição mediática que a Anthropic obteve mostra que era exatamente o efeito que eles queriam.”

Uma empresa que surgiu a partir de IA para segurança, com um erro de configuração no seu próprio CMS que levou à fuga de quase 3000 documentos; no ano passado, também devido a um erro no pacote de software Claude Code, expôs acidentalmente quase 2000 ficheiros de código-fonte e mais de 500 mil linhas de código, e durante a limpeza acabou por causar o deslistamento acidental de milhares de repositórios de código no GitHub. Uma empresa que faz da segurança a sua principal “promessa de venda”, sem conseguir nem sequer controlar o próprio processo de publicação — esta discrepância é mais digna de nota do que qualquer benchmark.

Mas, por outro lado, se as capacidades do Mythos forem realmente como são descritas, então não publicá-lo é uma decisão de custo extremamente alto. A Anthropic abriu mão de receitas de API, abriu mão de quota de mercado e bloqueou o modelo mais forte num consórcio limitado. A dotação de 100 milhões de dólares não é pouca coisa. Para uma empresa ainda a operar com perdas e que está a preparar um IPO, isso não parece uma decisão puramente de marketing.

Uma interpretação mais plausível pode ser: as preocupações de segurança são reais, mas a Anthropic sabe também muito bem que a narrativa “o nosso modelo é demasiado forte e por isso não ousamos publicá-lo” é, ela própria, a prova de capacidades mais convincente. As duas coisas podem ser verdade ao mesmo tempo.

A “momento iPhone” da cibersegurança?

Seja qual for a forma como encaremos os motivos da Anthropic, os factos subjacentes revelados pelo Mythos não podem ser ignorados: a compreensão de código de IA e as capacidades de ataque já ultrapassaram um limiar de transformação qualitativa.

O modelo anterior (Opus 4.6) conseguia detetar vulnerabilidades, mas quase não conseguia escrever exploits. O Mythos consegue detetar vulnerabilidades, escrever exploits, encadear cadeias de vulnerabilidades, escapar sandboxes e obter permissões de root, conseguindo ainda realizar todo o processo de forma autónoma. Engenheiros sem formação em segurança podem pedir ao Mythos para encontrar vulnerabilidades antes de dormir; na manhã seguinte, acordam com um relatório completo de exploits funcionais.

O que isto significa? Significa que o custo marginal de descobrir e explorar vulnerabilidades está a aproximar-se de zero. No passado, era necessário que equipas de segurança topo gastassem meses a fazer isso; agora, basta uma chamada de API para ficar concluído durante a noite. Isto não é “aumento de eficiência”; é uma alteração total da estrutura de custos.

Para empresas tradicionais de cibersegurança, a volatilidade de curto prazo das ações pode ser apenas o prelúdio. O verdadeiro desafio está nisto: quando ataque e defesa forem movidos por modelos de IA, como é que a cadeia de valor da indústria de segurança será reconfigurada? A análise da Raymond James apresenta uma possibilidade: as funcionalidades de segurança podem acabar por ser incorporadas no próprio ecossistema da cloud, e o poder de definição de preços dos fornecedores de segurança independentes enfrentará pressão fundamental.

Para toda a indústria de software, o Mythos é mais como um espelho, refletindo dívidas técnicas acumuladas ao longo de décadas. As vulnerabilidades que sobreviveram durante 27 anos em revisões humanas e testes automatizados não persistiram por falta de pessoas a procurar; persistiram porque a atenção e a paciência humanas são limitadas. A IA não tem essa limitação.

Para a indústria de criptografia, este sinal é ainda mais contundente. O mercado de auditorias de segurança de protocolos DeFi e smart contracts tem dependido, durante muito tempo, de um pequeno número de empresas de auditoria especializadas e de peritos humanos. Se um modelo do nível do Mythos conseguir executar autonomamente o fluxo completo, desde a revisão de código até à construção de exploits, os preços, a eficiência e a credibilidade das auditorias serão redefinidos de forma total. Pode ser uma bênção para a segurança on-chain, ou pode significar o fim do fosso competitivo das empresas de auditoria.

A corrida de segurança em IA de 2026 já evoluiu de “será que o modelo consegue entender código” para “será que o modelo consegue comprometer o teu sistema”. A Anthropic escolheu primeiro colocar os defensores em campo, mas também reconhece que essa janela não vai ficar aberta por muito tempo.

Quando a IA se tornar o hacker mais forte, a única saída é fazer com que a IA se torne também o melhor guardião.

O problema é que guardião e hacker usam o mesmo modelo.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar