Alguém criou um 'Mitologia Teórica' de código aberto para reverter a engenharia da IA mais perigosa da Anthropic

Resumidamente

  • OpenMythos é uma reconstrução do zero da arquitetura Claude Mythos, construída apenas a partir de artigos de pesquisa públicos e suposições fundamentadas.
  • Claude Mythos é o modelo mais poderoso da Anthropic, guardado no Projeto Glasswing porque encontrou autonomamente 271 vulnerabilidades no Firefox e ataques de rede de 32 etapas.
  • O repositório é uma estrutura teórica—código sem pesos treinados. Ele espelha um esforço separado da Vidoc Security que reproduziu as descobertas de vulnerabilidade do Mythos usando modelos prontos.

Se a Anthropic não mostrar o que há dentro de sua IA mais perigosa, alguém no GitHub vai tentar adivinhar. Um desenvolvedor chamado Kye Gomez publicou o OpenMythos, uma reconstrução de código aberto do que ele acha que o Claude Mythos parece por dentro. O repositório conquistou mais de 10.000 estrelas no GitHub em poucas semanas após o lançamento, e vem acompanhado de um arquivo “readme” exaustivo cheio de equações, citações e uma advertência educada de que não tem relação com a Anthropic. É especulação. Mas é especulação estruturada, em código. Aqui vai uma rápida atualização sobre o que é o Mythos: Mythos vazou para o público no final de março, quando a Anthropic publicou acidentalmente materiais preliminares descrevendo-o como o modelo mais capaz da empresa até então—um nível acima do Opus. A continuação, Mythos Preview, revelou-se extremamente bom em cibersegurança.

 Segundo a Anthropic, Mythos encontrou 271 vulnerabilidades no Firefox durante testes da Mozilla. Tornou-se o primeiro modelo de IA a completar uma simulação de ataque a rede corporativa de 32 etapas. A Anthropic o trancou dentro do Projeto Glasswing, uma coalizão avaliada de cerca de 40 parceiros, incluindo Microsoft, Apple, Amazon e NSA. O público nunca consegue acessá-lo. Então Gomez tentou entender como funciona. A hipótese central do OpenMythos é que Mythos é um Transformador de Profundidade Recorrente—também chamado de transformador em loop. Modelos padrão empilham centenas de camadas únicas. Modelos em loop usam uma pilha menor e a passam por si mesmos muitas vezes por passagem direta.

Em outras palavras, são os mesmos pesos passando por mais iterações. Pensamento mais profundo, em espaço latente contínuo, antes que qualquer token seja emitido. O repositório argumenta que isso explicaria duas qualidades mais estranhas do Mythos: ele raciocina sobre problemas novos que nenhum outro modelo consegue resolver, mas sua memorização bruta é desigual. Essa é a assinatura arquitetônica do looping—composição ao invés de armazenamento. OpenMythos cita Parcae, um artigo de abril de 2026 da Universidade da Califórnia em San Diego e da Together AI, que resolveu o problema de instabilidade de modelos em loop—um modelo Parcae de 770 milhões de parâmetros iguala a um transformador de profundidade fixa de 1,3 bilhões em qualidade, com leis de escalabilidade previsíveis para o número de loops a serem executados. O repositório também usa Multi-Latent Attention do DeepSeek para comprimir memória, e uma configuração de Mistura de Especialistas para lidar com amplitude entre domínios. O que não possui são pesos, ou seja, é uma técnica sem um executor. OpenMythos é teórico. O código define variantes do modelo de 1 bilhão a 1 trilhão de parâmetros, mas você precisa treiná-los sozinho—o arquivo readme aponta para um script de treinamento de 3 bilhões de parâmetros no FineWeb-Edu e um alvo ajustado de 30 bilhões de tokens, que representa uma conta de computação que chega a centenas de milhares de dólares em H100s. Ninguém fez isso ainda. Então, por que isso importa? Porque é a segunda vez em um mês que alguém tenta furar a barreira ao redor do Mythos. A primeira foi um estudo da Vidoc Security, que reproduziu várias das descobertas de vulnerabilidades mais alarmantes do Mythos usando GPT-5.4 e Claude Opus 4.6 dentro de um agente de código aberto. Sem acesso ao Glasswing, e por menos de 30 dólares por varredura. Ângulo diferente, mesma conclusão: a proteção ao redor do Mythos pode ser mais fina do que a publicidade sugeria. OpenMythos e a replicação da Vidoc estão fazendo trabalhos diferentes. A Vidoc reproduziu as saídas do Mythos—as descobertas de vulnerabilidades em si—usando modelos existentes. OpenMythos tenta reproduzir a arquitetura—a máquina real que produz essas saídas. Um diz que você não precisa do Mythos para encontrar os bugs que ele encontrou. O outro diz que, eventualmente, você poderá construir algo parecido com o Mythos você mesmo.

A Anthropic quase certamente não compartilha publicamente as suposições arquitetônicas de Gomez, e várias das escolhas de design no OpenMythos são declarações explícitas de cautela—o readme garante ser vago o suficiente para que os usuários entendam que é apenas uma abordagem. Repetidamente usa termos como “provavelmente”, “suspeitado” e “quase certamente”. O Mythos real pode nem ser um transformador em loop. Ou pode ser um com detalhes que Gomez ainda não conseguiu reverter. O que o OpenMythos demonstra é que a literatura de pesquisa já contém a maior parte das peças. Transformadores em loop, Mistura de Especialistas, Multi-Latent Attention, Tempo de Cálculo Adaptativo, a correção de estabilidade do Parcae—nenhum deles é proprietário. O repositório é, mais do que tudo, um inventário do que se sabe publicamente sobre como construir um modelo de classe Mythos. O repositório tem licença MIT, e já possui 2.700 forks. O script de treinamento está lá, esperando alguém com uma GPU em cluster e uma tese para provar.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar