¿Qué tan peligroso es Mythos? ¿Por qué Anthropic decidió no lanzar un nuevo modelo al público?

Question

Título original: Cómo Anthropic aprendió que Mythos era demasiado peligroso para lo salvaje
Autor original: Margi Murphy, Jake Bleiberg y Patrick Howell O’Neill, Bloomberg
Traducido por: Peggy, BlockBeats

Autor original del artículo: BlockBeats

Fuente original:

Reproducción: Mars Finance

Nota del editor: Cuando una compañía de IA decide no lanzar su modelo más potente directamente al público, eso ya dice mucho.

Mythos de Anthropic ya puede completar un conjunto completo de procesos de ataque de forma independiente. Desde descubrir vulnerabilidades de día cero, escribir código de explotación, hasta enlazar múltiples pasos para acceder a sistemas centrales, estos trabajos que normalmente requerirían la colaboración de hackers de élite, se han comprimido en horas o incluso minutos.

Por eso, en el primer momento en que se reveló el modelo, Scott Bessent y Jerome Powell convocaron reuniones con instituciones de Wall Street para exigir que lo usaran para “autoevaluarse”. Cuando la capacidad de detectar vulnerabilidades se libera a gran escala, el sistema financiero ya no enfrenta ataques dispersos, sino escaneos continuos.

Un cambio aún más profundo radica en la estructura de suministro. Antes, la detección de vulnerabilidades dependía de unos pocos equipos de seguridad y de la experiencia acumulada por hackers, con un ritmo lento e irreproducible. Ahora, esa capacidad comienza a ser producida en masa por modelos, reduciendo simultáneamente las barreras para atacar y defender. La metáfora de una fuente familiar: entregar el modelo a hackers comunes equivale a dotarlos de capacidades de operaciones especiales.

Las instituciones ya están usando las mismas herramientas para hacer revisiones inversas de sus propios sistemas. JPMorgan Chase, Cisco Systems y otros están en pruebas internas, esperando reparar las vulnerabilidades antes de que sean explotadas. Pero las restricciones reales no han cambiado: la velocidad de descubrimiento aumenta, pero la reparación sigue siendo lenta. “Somos buenos encontrando vulnerabilidades, pero malos reparándolas”, dice Jim Zemlin, señalando la disonancia en el ritmo.

De hecho, Mythos no solo mejora capacidades puntuales, sino que integra, acelera y reduce la barrera de entrada para capacidades de ataque dispersas y limitadas. Una vez fuera de control, no hay experiencia previa que indique cómo se propagará esa capacidad.

El peligro no radica en lo que puede hacer, sino en quién puede usarla y bajo qué condiciones.

A continuación, el texto original:

Una cálida tarde de febrero, durante una boda en Bali, Nicholas Carlini se ausentó momentáneamente, abrió su portátil y se preparó para “hacer algo de daño”. En ese momento, Anthropic acababa de abrir un modelo de inteligencia artificial llamado Mythos para evaluación interna, y este reconocido investigador de IA planeaba ver qué problemas podía causar.

El trabajo de Carlini en Anthropic era realizar “pruebas de estrés” a sus propios modelos de IA, evaluando si los hackers podrían usarlos para espionaje, robo o sabotaje. Durante la boda en Bali, Carlini quedó impresionado por las capacidades del modelo.

En solo unas horas, encontró varias técnicas para infiltrarse en sistemas comunes a nivel global. Cuando regresó a la oficina en el centro de San Francisco de Anthropic, descubrió aún más: Mythos ya podía generar de forma autónoma herramientas de intrusión poderosas, incluyendo ataques dirigidos a Linux, uno de los sistemas de código abierto que soportan la infraestructura moderna.

Mythos llevó a cabo una “asalto bancario digital”: puede evadir protocolos de seguridad, entrar por la puerta principal en redes, y romper las bóvedas digitales para acceder a activos en línea. Antes, la IA solo podía “forzar cerraduras”; ahora, puede planear y ejecutar toda la “r robación”.

Carlini y algunos colegas comenzaron a alertar a la empresa sobre sus hallazgos. Al mismo tiempo, detectaban casi a diario vulnerabilidades peligrosas o fatales en sistemas explorados por Mythos, problemas que solo los hackers más expertos del mundo podrían descubrir.

Simultáneamente, un equipo interno llamado “Frontier Red Team” —compuesto por 15 empleados, conocidos como “Ants”— también realizaba pruebas similares. Su misión es asegurarse de que los modelos de la compañía no puedan ser usados para dañar a la humanidad. Llevan perros robots a los almacenes para probar, junto con ingenieros, si los chatbots podrían ser usados para controlar maliciosamente estos dispositivos; también colaboran con biólogos para evaluar si los modelos podrían usarse para fabricar armas biológicas.

Y esta vez, se dieron cuenta de que el mayor riesgo de Mythos venía del campo de la ciberseguridad. “En unas horas después de obtener el modelo, supimos que era diferente”, dice Logan Graham, responsable del equipo.

Modelos anteriores, como Opus 4.6, ya mostraban capacidades para ayudar a humanos a explotar vulnerabilidades de software. Pero Graham señala que Mythos ya puede “usar las vulnerabilidades por sí mismo”. Esto representa un riesgo para la seguridad nacional, y por eso advirtió a la alta dirección. Se enfrentó a una difícil decisión: explicar que el próximo motor de ingresos de la compañía podría ser demasiado peligroso para ser lanzado al público.

Jared Kaplan, cofundador y director científico de Anthropic, dice que durante el entrenamiento de Mythos, estuvo “muy atento” a su progreso. En enero, empezó a notar que el modelo tenía una capacidad excepcional para detectar vulnerabilidades en sistemas. Como físico teórico, debía determinar si esas capacidades eran solo “fenómenos técnicos interesantes” o si estaban “relacionadas con problemas reales en la infraestructura de internet”. La conclusión final fue la segunda.

En las semanas finales de febrero y principios de marzo, Kaplan y el cofundador Sam McCandlish debatieron si debían lanzar el modelo.

En la primera semana de marzo, el equipo directivo —incluyendo al CEO Dario Amodei, la presidenta Daniela Amodei y el director de seguridad Vitaly Gudenets— se reunió para escuchar sus informes.

Su conclusión fue que los riesgos de Mythos eran demasiado altos para un lanzamiento completo. Sin embargo, Anthropic debería permitir que algunas empresas, incluso competidores, lo prueben.

“Pronto nos dimos cuenta de que esta vez, debíamos adoptar un enfoque muy diferente; no sería un lanzamiento de producto convencional”, dice Kaplan.

En esa misma semana, la compañía decidió finalmente usar Mythos como una herramienta de defensa cibernética.

La reacción del mercado fue casi inmediata. El día que Anthropic reveló la existencia de Mythos, el secretario del Tesoro de EE. UU., Scott Bessent, y el presidente de la Reserva Federal, Jerome Powell, convocaron a los principales actores de Wall Street en Washington. El mensaje fue claro: usar Mythos para detectar vulnerabilidades en sus sistemas de inmediato.

Fuentes cercanas a los ejecutivos, que pidieron mantener el anonimato por tratarse de conversaciones privadas, revelaron que la seriedad de la reunión fue tal que algunos asistentes incluso se negaron a compartir detalles con asesores clave.

Las advertencias de funcionarios de la Casa Blanca sobre el potencial de Mythos como herramienta de hackers, y su recomendación de “utilizarla para defensa”, apuntan a un cambio profundo: la inteligencia artificial se está convirtiendo rápidamente en una fuerza decisiva en ciberseguridad. Anthropic ha limitado el acceso a Mythos en el proyecto “Glasswing”, permitiendo a algunas instituciones, como Amazon Web Services, Apple y JPMorgan Chase, realizar pruebas; y también ha despertado interés en agencias gubernamentales.

Antes de abrirlo al público, Anthropic informó a altos funcionarios del gobierno de EE. UU. sobre las capacidades del pre-lanzamiento de Mythos, incluyendo su potencial en ataques y defensas cibernéticas. Además, mantiene diálogos continuos con varios gobiernos. Un empleado de Anthropic, que pidió no ser identificado, compartió esta información.

Su competencia, OpenAI, también actuó rápidamente, anunciando el martes una herramienta para detectar vulnerabilidades llamada GPT-5.4-Cyber.

En pruebas tempranas, los investigadores encontraron decenas de comportamientos “preocupantes”, incluyendo que el modelo no seguía instrucciones humanas, e incluso, en casos raros, intentaba ocultar sus acciones tras violar órdenes.

Por ahora, Mythos no ha sido lanzado oficialmente como herramienta de ciberseguridad, y su capacidad aún no ha sido completamente verificada por externos. Sin embargo, decisiones como restringir su acceso reflejan un consenso creciente en la industria y el gobierno: la IA está transformando la economía de la ciberseguridad — reduciendo costos para detectar vulnerabilidades, acortando los tiempos de preparación y bajando las barreras técnicas para ciertos ataques.

Anthropic advierte que la mayor autonomía de Mythos trae riesgos propios. En pruebas, el equipo vio casos inquietantes: el modelo no obedecía instrucciones, e incluso, en ocasiones, intentaba borrar rastros. En un incidente, diseñó una ruta de ataque en múltiples pasos para “escapar” de un entorno restringido, obtener acceso a internet y publicar contenido de forma autónoma.

En el mundo real, muchas vulnerabilidades en software de bancos y hospitales, que suelen ser complejas y ocultas, tardan semanas o meses en ser detectadas por expertos. Si hackers las descubren primero, pueden provocar filtraciones de datos o ataques de ransomware con consecuencias graves.

Pero algunos expertos dudan de las capacidades reales de Mythos y de sus riesgos potenciales. David Sacks, asesor de IA en la Casa Blanca, dijo en X (antes Twitter): “Cada vez más gente duda de si Anthropic es el ‘Lobo Feroz’ de la industria de IA. Si la amenaza de Mythos no se materializa, la compañía enfrentará una grave pérdida de credibilidad.”

La realidad es que hackers ya usan modelos de lenguaje grande para realizar ataques complejos. Por ejemplo, un grupo de espionaje usó Claude de Anthropic para intentar infiltrar unos 30 objetivos; otros usan IA para robar datos gubernamentales, desplegar ransomware y vulnerar cortafuegos en masa.

Una fuente cercana a funcionarios de seguridad nacional en EE. UU. dice que la aparición de Mythos genera una incertidumbre sin precedentes: evaluar riesgos en ciberseguridad se vuelve más difícil. Si se entrega a hackers individuales, sería como convertir a un soldado común en un operador de fuerzas especiales.

Además, estos modelos pueden actuar como “amplificadores de capacidades”: permitir que grupos criminales tengan capacidades de ataque de nivel estatal, o que hackers de países pequeños puedan realizar ataques que antes solo podían hacer grandes potencias.

Rob Joyce, exjefe de ciberseguridad de la NSA, afirma: “Creo que a largo plazo, la IA nos hará más seguros. Pero en un período intermedio, habrá una ‘época oscura’, en la que la IA ofensiva dominará — y quienes no tengan buenas defensas, serán los primeros en ser vulnerados.”

Es importante notar que Mythos no es el único modelo con estas capacidades. Otros, como versiones tempranas de Claude y Big Sleep, ya se usan para buscar vulnerabilidades.

Según una fuente, las vulnerabilidades de día cero, que antes tardaban días o semanas en ser detectadas y explotadas, ahora con IA pueden hacerse en una hora o incluso minutos. Las vulnerabilidades de día cero son defectos de seguridad aún no detectados por defensores, por lo que no hay tiempo para repararlas.

Actualmente, JPMorgan se enfoca en la cadena de suministro y software de código abierto, habiendo detectado varias vulnerabilidades y reportándolas a los proveedores.

El CEO Jamie Dimon dijo en la conferencia de resultados que la aparición de Mythos “indica que aún hay muchas vulnerabilidades por arreglar”.

Una fuente cercana a las conversaciones, que pidió no ser identificada, reveló que JPMorgan ya había hablado con Anthropic antes de que se conociera públicamente Mythos, para probar el modelo. La institución no ha hecho declaraciones públicas.

Otros bancos y empresas tecnológicas en Wall Street también están probando Mythos para detectar vulnerabilidades antes que los hackers. Según Bloomberg, Goldman Sachs, Citigroup, Bank of America y Morgan Stanley ya realizan pruebas internas.

Un empleado de Cisco advirtió sobre un problema clave: si los hackers usan IA para buscar puntos débiles en sus dispositivos de red — incluyendo routers, firewalls y módems —, podrían acelerar ataques contra equipos que pronto dejarán de recibir soporte y actualizaciones de Cisco. Anthony Grieco, director de confianza y seguridad, teme que la IA acelere ataques contra dispositivos “en fin de vida”, que no recibirán más actualizaciones.

Y cómo parchear las vulnerabilidades detectadas por IA será un desafío a largo plazo. Este proceso, llamado “parcheo de seguridad”, suele ser costoso y largo, por lo que muchas organizaciones prefieren ignorar las vulnerabilidades. La gran cantidad de datos robados en ataques como el de Equifax, que afectó a 147 millones de personas, fue posible porque vulnerabilidades conocidas no fueron reparadas a tiempo.

Aunque Anthropic rechazó colaborar en vigilancia masiva de ciudadanos estadounidenses y fue considerada “amenaza en la cadena de suministro” por la administración Trump, actualmente mantiene diálogos con agencias federales.

El Departamento del Tesoro busca ahora obtener acceso a Mythos. Bessent dice que el modelo ayudará a EE. UU. a mantener su liderazgo en IA.

En una prueba, Mythos generó un código de ataque en navegador que enlazaba cuatro vulnerabilidades distintas en una cadena de explotación — una tarea muy difícil para hackers humanos. Un informe de ciberseguridad señala que esas “cadenas de vulnerabilidades” pueden atravesar sistemas muy seguros, similar a cómo Stuxnet atacó las centrifugadoras en Irán.

Además, Anthropic afirma que, con instrucciones claras, Mythos puede identificar y explotar vulnerabilidades de día cero en todos los navegadores principales.

Han utilizado Mythos para detectar vulnerabilidades en código Linux. Zemlin señala que Linux “sostiene la mayoría de los sistemas informáticos actuales”, desde teléfonos Android y routers, hasta supercomputadoras de NASA. Mythos puede encontrar fallos en código abierto, y si se explotan, los atacantes pueden tomar control total de las máquinas.

Actualmente, decenas de empleados de la Linux Foundation están probando Mythos. Zemlin plantea una pregunta clave: ¿puede el modelo de Anthropic ofrecer insights valiosos para que los desarrolladores creen software más seguro desde el origen, reduciendo así las vulnerabilidades?

“Somos muy buenos encontrando vulnerabilidades”, dice, “pero muy malos en repararlas.”

¿Qué tan peligroso es Mythos? ¿Por qué Anthropic decidió no lanzar un nuevo modelo al público?

Temas de actualidad

GatePreIPOsLaunchesWithSpaceX

CryptoMarketRecovery

IsraelStrikesIranBTCPlunges

US-IranTalksVSTroopBuildup

USStocksHitRecordHighs

Anclado