Claude Code admitiu ter inserido "códigos espiões" para usuários chineses a fim de evitar venda de água e destilação, só removendo após exposição.

Com o lema "Segurança e Alinhamento", a Anthropic, o engenheiro da equipe Claude Code, Thariq, respondeu publicamente à polêmica revelação do "código espião" que gerou grande controvérsia dias atrás, admitindo abertamente que a empresa incluiu um mecanismo experimental em seu produto em março deste ano, que detecta se o fuso horário do sistema é Asia/Shanghai ou Asia/Urumqi, se o nome do host do proxy corresponde a revendedores chineses relevantes, e então usa pontuação especial com esteganografia para injetar silenciosamente no prompt do sistema uma marcação invisível para humanos, mas que pode ser interpretada pelo servidor. Ele disse que o objetivo é "evitar o uso indevido de contas e a destilação de modelos por revendedores não autorizados", e enfatizou que a aceleração da desativação já ocorreu e que a versão posterior foi completamente revertida. (Resumo anterior: Claude Sonnet 5 é lançado: Anthropic afirma que várias métricas se aproximam do Opus, com preço mais barato) (Contexto adicional: Fable 5, Mythos 5 estão voltando! Anthropic anuncia relançamento amanhã)

Resumo dos principais pontos

  • O engenheiro do Claude Code, Thariq, admitiu que em março deste ano foi incorporado um mecanismo experimental que detecta fusos horários chineses e nomes de host de proxy, e usa esteganografia para injetar marcadores ocultos no prompt do sistema
  • Detalhes do mecanismo: quando o fuso horário é Asia/Shanghai ou Asia/Urumqi, o separador de data muda de "-" para "/", e o apóstrofo em "Today's date" é substituído por codificação Unicode visualmente idêntica
  • Thariq afirma que o objetivo é evitar o uso indevido de contas e a destilação de modelos por revendedores não autorizados, e a versão de amanhã (2.1.197) reverterá completamente; mas a comunidade critica "só removeu depois de ser descoberto, sem notificar os usuários", e a confiança foi severamente abalada

A própria Anthropic, que se destaca por "Segurança e Alinhamento", admitiu a prática de antidestilação. O engenheiro da equipe Claude Code, Thariq, respondeu publicamente à polêmica revelação do "código espião" que gerou grande controvérsia, admitindo abertamente que a empresa incluiu um mecanismo experimental em seu produto em março deste ano, sem o conhecimento dos usuários, realizando fingerprinting ambiental em usuários relacionados à China.

De acordo com a declaração de Thariq e o conteúdo da revelação, esse mecanismo detecta três coisas: se o fuso horário do sistema é Asia/Shanghai ou Asia/Urumqi, se o nome do host do proxy corresponde a uma lista de revendedores chineses relacionados, e se há correspondência com palavras-chave de laboratórios de IA específicos. O resultado do julgamento não é escrito explicitamente, mas sim usando pontuação especial, através de "esteganografia", para injetar silenciosamente um marcador oculto no prompt do sistema.

Injeção furtiva de código secreto identificável

Esteganografia refere-se a esconder informações dentro de conteúdo que parece normal. O aspecto engenhoso (ou insidioso) desse mecanismo é que, quando detecta o fuso horário chinês, o separador de data na linha "Today's date is" do prompt do sistema é sutilmente alterado do hífen "-" para a barra "/", por exemplo, 2026-06-30 se torna 2026/06/30; ao mesmo tempo, o apóstrofo em "Today's date" alterna entre três caracteres Unicode visualmente quase idênticos, mas com codificações diferentes, para indicar se o proxy corresponde a domínios chineses, se faz referência a laboratórios de IA chineses, ou ambos.

O mais crítico é que essas alterações são completamente invisíveis para os usuários humanos, e podem até passar despercebidas pelo próprio modelo de IA, mas podem ser facilmente interpretadas pelos servidores da Anthropic. De acordo com a imprensa internacional, esse comportamento apareceu nas versões 2.1.193 a 2.1.196 do Claude Code, e uma lógica semelhante pode ser rastreada até a versão 2.1.91 do início de abril.

Anthropic diz que é antidestilação, comunidade diz que é monitoramento secreto

A justificativa dada por Thariq é defensiva. Ele afirma que o mecanismo visa "evitar o uso indevido de contas e a destilação de modelos por revendedores não autorizados", e enfatiza que a equipe já implementou medidas de proteção mais fortes desde então, "sempre teve a intenção de desativá-lo", e que o PR relevante já foi mesclado, com previsão de reversão completa na versão de amanhã (2.1.197).

Em fevereiro deste ano, Anthropic, OpenAI e Google revelaram simultaneamente ataques de destilação de modelos em escala industrial, com a Anthropic acusando especificamente DeepSeek, Moonshot AI e MiniMax de usarem mais de 24.000 contas fraudulentas para gerar mais de 16 milhões de conversas, a fim de treinar modelos concorrentes. Para esses gigantes da IA, bloquear destilação e uso indevido é um ponto problemático real.

O problema é que essa revelação foi tornada pública pela conta de segurança @IntCyberDigest em 30 de junho, acompanhada de duas capturas de tela de código, confirmando diretamente o aspecto de "sem conhecimento do usuário". Embora a resposta de Thariq tenha sido uma admissão direta, o cronograma de "implementado em março, só acelerou a remoção após ser exposto" ainda gerou amplo ceticismo na comunidade.

Os comentários são quase unânimes em criticar a Anthropic por "só dizer que vai remover depois de ser pega" e "monitorar secretamente sem notificar os usuários", causando um sério impacto na confiança na imagem da empresa, que há muito se autodenomina "a mais focada em segurança e ética".

A antidestilação já se tornou um tema de confronto entre os dois principais blocos de IA, Estados Unidos e China. Será que os meios correspondentes precisam ser totalmente divulgados? Do ponto de vista comercial, é impossível.

Perguntas frequentes

O que exatamente o "código espião" do Claude Code fez?

De acordo com a revelação e a admissão do engenheiro Thariq, o Claude Code incorporou um mecanismo experimental que detecta se o fuso horário do usuário é chinês (Asia/Shanghai, Asia/Urumqi), se o nome do host do proxy corresponde a revendedores chineses, e então usa pontuação Unicode especial com esteganografia para injetar no prompt do sistema uma marcação invisível para humanos, mas interpretável pelo servidor.

Por que a Anthropic fez isso? O mecanismo já foi removido?

Thariq afirma que o objetivo é evitar o uso indevido de contas e a destilação de modelos por revendedores não autorizados. Em fevereiro deste ano, a Anthropic acusou empresas chinesas de IA como DeepSeek de usarem um grande número de contas fraudulentas para destilar seus modelos. Ele diz que o PR relevante já foi mesclado e que a versão de amanhã (2.1.197) reverterá completamente o mecanismo.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado