2026-04-01 11:37:05

#ClaudeCode500KCodeLeak

Ayer el mundo de la IA explotó silenciosamente. Alguien notó que el paquete npm de Anthropic's Claude Code había sido enviado con un archivo .npmignore mal configurado, y dentro de ese paquete había un mapa de origen — un archivo .map — que contenía aproximadamente 512,000 líneas de código fuente en TypeScript en casi 1,900 archivos. Toda la capa de orquestación de uno de los agentes de codificación de IA más sofisticados del mercado, simplemente allí, descargable, indexado, público. No pesos del modelo. No datos de entrenamiento. Algo posiblemente más interesante: toda la estructura, el andamiaje, el cableado que hace que Claude Code realmente se comporte de la manera en que lo hace cuando está en tu terminal y escribe tu código.

La comunidad actuó rápidamente. Se crearon espejos en pocas horas. Investigadores comenzaron a alimentar el código de vuelta en Claude y a pedirle que explicara qué estaba leyendo. Las salidas de autoanálisis que regresaron fueron, dependiendo de tu perspectiva, ya sea profundamente impresionantes o silenciosamente alarmantes — probablemente ambas.

Aquí es lo que revela realmente el código filtrado, y por qué importa mucho más allá del ciclo de memes.

La arquitectura del prompt del sistema no es un único documento coherente. Es un collage de más de cien fragmentos condicionales, cada uno inyectado dinámicamente dependiendo de qué herramienta está activa, en qué modo está el usuario, qué contexto ha sido detectado. El componente de monitor de seguridad solo ya pesa más de 5,600 tokens — aproximadamente 22,000 palabras de instrucciones condicionales dedicadas únicamente a vigilar entradas adversariales. Eso no es una característica de seguridad añadida al final. Es una capa cognitiva paralela que funciona junto a todo lo demás, siempre, leyendo los mismos archivos y fragmentos de código que Claude, buscando signos de inyección de prompt antes de que cualquier llamada a herramienta pueda proceder.

El Modo Plan, la función activada por Shift+Tab, no es una simple pausa de "piensa antes de actuar". Genera tres agentes paralelos. Uno mapea la base de código. Otro realiza lo que el código describe como un proceso de entrevista. La ejecución misma sucede dentro de un árbol de trabajo git aislado, en un sandbox separado del directorio de trabajo en vivo. La lógica de coordinación entre estos agentes es explícita, estructurada, y sorprendentemente compleja para algo que se distribuye como una herramienta para desarrolladores.

La memoria está estratificada de una manera que la mayoría de los usuarios probablemente no perciben. Hay memoria a nivel de sesión, como se espera. Hay memoria compartida por el equipo. Y luego hay algo que el código llama autoDream — un proceso de consolidación en segundo plano que se ejecuta de forma asíncrona, podando entradas redundantes y fusionando memorias relacionadas. El nombre es lo suficientemente evocador como para generar su propia línea de reacciones cuando la gente lo encontró, pero el mecanismo en sí es sencillo: es un proceso de mantenimiento diseñado para mantener la utilidad del almacén de memoria a largo plazo en lugar de dejar que se infle en ruido.

El verificador adversarial merece su propio párrafo. Después de que se genera el código, se activa un agente separado con una sola tarea: intentar romperlo. Encontrar el caso límite. Detectar el error lógico. Devolver un PASA o FALLA antes de que la salida sea entregada al usuario. Esto no es una revisión posterior al código. Es un sub-agente adversarial incrustado en la línea de entrega. El código también indica que este verificador es configurable, lo que implica que Anthropic lo trata como un dial en lugar de un interruptor — puedes ajustar qué tan difícil intenta romper las cosas.

Las funciones no lanzadas en la base de código son donde las cosas se vuelven realmente especulativas, porque ninguna de ellas se distribuye. BUDDY parece ser un compañero de IA persistente con estado que rastrea algo análogo a métricas emocionales o de compromiso — la comparación con Tamagotchi que circuló en X es reductiva pero no del todo incorrecta. KAIROS es un sistema de notificación proactiva, es decir, un agente que contacta al usuario en lugar de esperar a ser invocado. ULTRAPLAN apunta a un modo de planificación alojado en la nube usando modelos de clase Opus, lo que significaría que la capa de planificación más capaz se descarga en lugar de ejecutarse localmente. Si alguno de estos se lanza, cuándo, o en qué forma, es completamente desconocido, pero su existencia en la base de código en este nivel de desarrollo dice algo sobre las ambiciones del roadmap del producto.

La defensa contra la distilación es lo más filosóficamente interesante de la filtración. El código contiene lógica diseñada para presentar salidas falsas de herramientas a cualquiera que intente extraer o distilar el comportamiento del modelo mediante sondeos automatizados. La intención es envenenar la señal de entrenamiento para quien intente copiar el comportamiento de Claude observándolo en acción. La ironía de que este mecanismo de defensa — llamado Undercover Mode internamente — se filtrara en el mismo paquete no pasa desapercibida. Es lo tipo de cosa que parecería inventada si se lee en una novela.

Las observaciones sobre la calidad del código merecen mención porque cuentan una historia diferente a la arquitectura. Entre las pipelines de múltiples agentes elegantemente diseñadas y los sistemas de memoria cuidadosamente estructurados, hay funciones que superan las 3,000 líneas. Hay lo que cualquier ingeniero experimentado llamaría spaghetti en algunos lugares. Esto no es una crítica — es un recordatorio de que incluso la infraestructura de IA más sofisticada es construida por humanos bajo presión de lanzamiento, y la brecha entre el comportamiento externo elegante y la implementación interna desordenada es una constante universal en el software. También significa que el código filtrado no es alguna implementación de referencia prístina. Es una base de código funcional con todas las cicatrices que eso implica.

Lo que esto significa para el panorama más amplio de la IA vale la pena reflexionarlo. La capa de orquestación — el arnés, el andamiaje, la lógica de coordinación agentica — ha sido históricamente tratada como el secreto propietario que diferencia estas herramientas. Los pesos del modelo son en gran medida inaccesibles. Los datos de entrenamiento están protegidos. Pero la capa de comportamiento, la parte que determina cómo actúa realmente el modelo cuando está integrado en un producto, ahora ha sido expuesta en su totalidad para uno de los agentes de codificación líderes. Otros equipos leerán esto. Investigadores académicos leerán esto. Competidores leerán esto. Las técnicas para generar agentes paralelos, verificación adversarial, consolidación de memoria en capas y detección de inyección de prompt en las que Anthropic invirtió mucho tiempo de ingeniería ahora son efectivamente conocimiento público.

Anthropic no ha emitido una declaración pública hasta el momento en que se escribió esto. Es probable que el paquete npm ya haya sido corregido. Los espejos ya son demasiado extensos para suprimirlos de manera significativa. El discurso avanzará en días, como siempre. Pero el artefacto en sí — 512,000 líneas que describen cómo un agente de codificación de frontera en IA realmente piensa y coordina — será estudiado cuidadosamente por quienes construyen estos sistemas durante mucho tiempo.

La verdadera conclusión no es que Anthropic cometió un error. Es que la brecha entre "IA caja negra" y "sistema de IA completamente legible" es mucho menor de lo que la narrativa sobre estos productos suele implicar. La magia es real, pero también es TypeScript.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

1 me gusta