Gigante da IA nos EUA com 510.000 linhas de código-fonte vazadas! Desenvolvedores estão a copiar diretamente? Advogados alertam para riscos

Devido a um funcionário ter, por engano, divulgado o código-fonte completo do Claude Code com 512 mil linhas, toda a indústria conseguiu vislumbrar a arquitetura interna do novo grande player da inteligência artificial (IA), a Anthropic, bem como o planeamento dos seus produtos com pets eletrónicos e assistentes de IA persistentes, antecipadamente exposto.

No dia 31 de março, no horário local, devido a um erro na embalagem (packaging) do pacote npm, o código-fonte do Claude Code foi divulgado. Em poucas horas, o código vazado ganhou rapidamente tração no GitHub, com mais de 10 mil estrelas e mais de 20 mil cópias de segurança.

A este respeito, a Anthropic respondeu ao jornalista do “Diário Económico” (a seguir, jornalista do 每经) que este problema se deve a uma falha humana (human error) no processo de publicação e empacotamento, e não a uma vulnerabilidade de segurança.

Especialistas apontam que este vazamento oferece aos pequenos e médios programadores uma oportunidade de “copiar tarefas” para melhorar as capacidades dos seus produtos, mas o uso comercial do código em questão enfrenta riscos legais.

** “Código-fonte do Claude Code com 510 mil linhas” “tornado open source”**

No dia 31 de março, no horário local, o estagiário investigador da empresa de segurança Web3 FuzzLand, Chaofan Shou, divulgou numa plataforma social X que o código-fonte da ferramenta de programação de IA Claude Code, da Anthropic, foi acidentalmente vazado.

Segundo a sua descrição, ao verificar o pacote npm do Claude Code, encontrou um ficheiro cli.js.map com uma dimensão de 57MB que apontava para uma ligação de um bucket de armazenamento, contendo 1900 ficheiros TypeScript, perfazendo no total mais de 512 mil linhas de código-fonte completo, não ofuscado nem descompilado. Isto significa que os programadores podem facilmente espreitar e até reconstruir a estrutura interna do Claude Code.

A raiz do problema não é complexa: o ficheiro source map, que deveria ter sido excluído na build de produção, acabou publicado no npm registry, uma plataforma pública, devido a uma falha na configuração do .npmignore ou a um ajuste inadequado no processo de compilação. Em poucas horas, o código relacionado foi carregado no GitHub e espalhado amplamente; até já há programadores que reconstruíram completamente o Claude Code com base no conteúdo vazado.

Após o incidente ganhar tração, a Anthropic atualizou de urgência o pacote npm e removeu os ficheiros relacionados, além de eliminar versões anteriores. Mas já era tarde demais.

O jornalista do 每经 pediu confirmação à Anthropic sobre o caso. A empresa respondeu: “Mais cedo hoje, numa publicação do Claude Code foram incluídas algumas fontes internas. Este incidente não envolve nem expõe quaisquer dados ou credenciais sensíveis de clientes. Isto deve-se a um problema de empacotamento na publicação causado por erro humano, e não a uma vulnerabilidade de segurança. Estamos a implementar medidas para evitar que situações semelhantes voltem a acontecer.”

Este já é o segundo grande incidente de vazamento ocorrido dentro de uma semana na Anthropic. No dia 26 de março, a empresa acabou de vazar informações do modelo chamadas Claude Mythos e cerca de 3000 ativos não divulgados devido a um erro na configuração do CMS (sistema de gestão de conteúdos). Mais cedo ainda, o Claude Code também apresentou problemas de vazamento do código-fonte e de prompts do sistema nos meses de fevereiro de 2025 e dezembro de 2024, respetivamente. Falhas frequentes de “erro humano” estão a continuar a corroer a confiança do mercado nas suas capacidades de segurança.

“Vazamento em nível de produção”: pets eletrónicos não publicados e assistentes de IA persistentes expostos antecipadamente

À medida que os programadores analisaram mais a fundo o código vazado, foi-se tornando progressivamente claro um sistema interno do Claude Code que excede em muito as expectativas do público. Isto não é uma simples ferramenta de encapsulamento de API, mas sim um ambiente completo de desenvolvimento em nível de produção.

De acordo com a análise do repositório do GitHub, a base de código vazada inclui mais de 40 ferramentas de controlo de permissões, um motor de consulta com 46 mil linhas de código, um sistema de coordenação multiagente, funcionalidades de ponte para IDE e mecanismos de memória persistente, entre outros. No código, também foram encontrados 35 sinalizadores de funcionalidades em tempo de compilação e mais de 120 variáveis de ambiente não divulgadas; através da variável de ambiente USER_TYPE=ant, os funcionários da Anthropic conseguem desbloquear todas as funcionalidades internas.

Há programadores que apontaram que o conteúdo vazado do Claude sugere que ele não é apenas um assistente de programação de IA, mas sim mais como um sistema operativo.

O que chama ainda mais a atenção são várias funcionalidades experimentais ainda não lançadas.

** A primeira é um sistema de pet eletrónico de terminal chamado BUDDY.**

O código mostra que o BUDDY é um sistema de companheiro de IA semelhante ao Tamagotchi, um pet eletrónico que fez furor globalmente nos anos 90 do século passado. O seu mecanismo central combina o ID do utilizador com um algoritmo pseudoaleatório para gerar papéis únicos, incluindo espécie, raridade, aparência e atributos. O sistema também suporta configurações como “tirar cartas” e variantes brilhantes, e o modelo gera automaticamente “descrições da alma”. Vale destacar que os atributos-chave do pet não são armazenados; são gerados por cálculo dinâmico com base no ID do utilizador, conferindo-lhe uma unicidade estável e imutável.

** A segunda é um assistente de IA persistente chamado KAIROS.**

O KAIROS é ocultado depois dos sinalizadores de compilação e, na versão pública, não é visível. Uma vez ativado, este sistema pode monitorizar continuamente o comportamento do utilizador, registar informações e executar tarefas proativamente, mantendo ainda registos operacionais detalhados. Em conjunto com um mecanismo de back-end chamado autoDream, o sistema também consegue organizar memórias automaticamente nos períodos de baixa atividade, convertendo o conteúdo das conversas de curto prazo em conhecimento longo estruturado. Esta conceção é considerada altamente semelhante ao processo de consolidação de memórias humanas durante o sono.

Um investigador de Byte AI Agent afirmou que o mais surpreendente é o modo KAIROS — GitHub Webhook + Cron + MCP Channel + organização das memórias Dream em back-end — que, na essência, faz com que o Agent passe de ferramenta para empregado digital.

Além disso, para evitar vazamento de informação interna, a Anthropic também desenhou um “modo encoberto” (Undercover Mode), limitando os funcionários a mencionar códigos internos do modelo ou nomes de ferramentas nas contribuições open source. Ao mesmo tempo, a sua API também integra um mecanismo de “envenenamento de dados”: ao injetar definições falsas de ferramentas (fake_tools), perturba a captura potencial de dados e o comportamento de destilação do modelo, reduzindo assim o desempenho dos modelos dos concorrentes.

Estes designs mostram que a Anthropic já investiu muito esforço tanto na proteção técnica como nas estratégias de concorrência, mas este “erro humano” revelou uma fraqueza no nível da execução do processo.

** Por trás da euforia dos programadores: “copiar tarefas” pode enfrentar riscos legais **

Como produto-chave para competir com a OpenAI, o Claude Code competia há muito tempo com ferramentas como o GitHub Copilot. Embora este vazamento acidental não tenha sido uma abertura oficial do código, muitos programadores o veem como uma rara oportunidade de aprendizagem.

O professor associado convidado da Universidade de Finanças e Economia de Xangai, Hu Yanping, disse ao jornalista do 每经 que o impacto mais importante deste vazamento no ecossistema de IA é poder ajudar outras equipas de Agents a elevar o nível dos seus produtos e ajudar os programadores a compreenderem o roteiro técnico. Ele revelou que algumas pessoas técnicas, de facto, analisaram, reconstruíram, alteraram, testaram e até tentaram implementar e reproduzir rapidamente, realizando uma pesquisa sistemática sobre os ficheiros vazados. “Para programadores que, em termos de capacidade em Agents de IA, eram originalmente fracos ou médios, isto é, sem dúvida, uma oportunidade de ‘copiar tarefas’, alinhando rapidamente o nível do produto. E até durante a cópia de tarefas, ao transformar o trabalho e otimizações localizadas, pode acabar por ser melhor do que o framework do Claude Code em alguns aspetos.”

Na perspetiva de Hu Yanping, o vazamento de código traz de facto uma grande ajuda para programadores de pequena e média dimensão, mas pode não ser tão verdade para grandes empresas. “Porque as grandes empresas ou já estão a fazer engenharia inversa, ou estão a construir um framework de produto mais sistemático; para produtos como o Claude Code terem sucesso, além da força do produto numa única peça, também depende de todo o ecossistema de aplicação — incluindo o ecossistema de Skills, o ecossistema de programadores e de parceiros, e como oferecer serviços de IA de ponta a ponta para corresponder ao grande ecossistema formado por centenas de milhões de dispositivos e centenas de milhões de utilizadores.”

Hu Yanping acredita que a atenção e a discussão amplas em torno do vazamento do código-fonte do Claude Code surgem porque a Anthropic é, a nível global, especialmente no contexto de To B e capacidades de código, uma das duas empresas de IA com as capacidades mais fortes de full-stack; a outra é a OpenAI. Além disso, relativamente à OpenAI, a Anthropic foi mais longe neste tipo de produtos e tem uma força de produto mais forte. “Pelo código vazado, o sistema e a integração orgânica do Claude Code praticam e incorporam, de forma concreta, o Prompt Engineering, Context Engineering e Harness Engineering que estão em alta na indústria; em especial, a combinação de Harness Engineering e das funcionalidades que permitem operar o computador após a atualização faz com que a indústria consiga ver, através do Claude Code, a direção do próximo estágio de desenvolvimento. Como agentes de controlo (take-over) e agentes de ação, como sistema operativo de aplicação, estão a tornar-se universais; no futuro, podem vir a ser uma inteligência digital geral diferente da inteligência geral incorporada.”

No entanto, aquando da entrevista ao jornalista do 每经, a advogada Wu Junling, do escritório de advocacia Guohao, lembrou que este caso é mais adequado para ser definido como um erro de divulgação de source map que permite que parte do código-fonte seja reconstruído, e não como o titular a autorizar proativamente a divulgação do código-fonte. Assim, embora o código-fonte possa ser obtido por terceiros, isso não significa, por si só, que qualquer pessoa tenha autorização legal para copiar, adaptar, integrar ou fazer uso comercial.

Ela analisou que, para empresas e programadores, se após descarregar o código relacionado o utilizarem para copiar, adaptar e incorporar em produtos próprios, ou com base nisso otimizar e treinar produtos competitivos semelhantes, normalmente poderão ser acionados riscos compostos no âmbito de direitos de autor, segredos comerciais e até concorrência desleal. Embora, depois de o código-fonte relevante já ter sido amplamente disseminado, seja mais difícil para o titular fazer valer posteriormente um pedido relativo ao segredo comercial do código-fonte como um todo, isso não exclui necessariamente que ainda possa fazer valer direitos sobre detalhes que não tenham sido divulgados, ou sobre condutas de aquisição, disseminação e utilização indevidas ocorridas no início. Para os utilizadores atuais da Anthropic, os seus termos oficiais também limitam explicitamente a utilização dos seus serviços para desenvolver produtos concorrentes, treinar produtos concorrentes de IA, e também proíbem engenharia reversa, descompilação ou serviços de cópia; por isso, o uso em questão pode ainda acumular riscos de violação de contrato.

Ela também disse que, em comparação, simplesmente “verificar” o código relacionado para fins de investigação ou análise de segurança tende a ter um risco mais baixo do que a reutilização efetiva; mas assim que se entra em etapas como desenvolvimento e comercialização, os riscos legais aumentam significativamente.

Atualmente, vários repositórios do GitHub que hospedaram códigos-fonte vazados já começaram a receber notificações de remoção com base na “Digital Millennium Copyright Act” e foram sendo retirados. Isto também mostra que a disputa legal em torno deste incidente está a decorrer.

(Fonte: Diário Económico)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar