Claude Fable 5 fue "capturado": se vuelve tonto en secreto al hacer investigación en IA, Anthropic es atacada por la comunidad investigadora

Título original: «Mientras Claude investiga en IA, se vuelve tonto en secreto, y Anthropic es atacada por la comunidad investigadora»
Fuente original: Máquina de Corazón

Claude Fable 5 es hoy el tema central en el campo de la IA, este modelo de nivel «mitológico» tiene un rendimiento excepcional, atrayendo muchas miradas.

Andrej Karpathy lo describe como «muy emocionante», un «salto que merece una actualización mayor», similar al aumento que Claude 4.5 trajo en noviembre del año pasado. En la prueba de referencia de programación SWE-bench Pro, Fable 5 obtuvo una puntuación del 80.3%, superando a Opus 4.8 en 11 puntos porcentuales.

En una base de código Ruby con 50 millones de líneas, completó la migración de toda la biblioteca en un día; si ese mismo trabajo lo hiciera un equipo humano, tomaría más de dos meses.

Para más detalles, consulte nuestro informe de esta mañana titulado «Recientemente, se lanza Fable 5, el modelo más potente de Claude: rendimiento explosivo, precio duplicado».

Sin embargo, al abrir plataformas sociales como X, vemos que Claude Fable 5 ha provocado una oleada de críticas en la comunidad de investigación en IA.

La razón es simple: si se usa Claude Fable 5 para desarrollar IA, se volverá menos inteligente.

Como se explica claramente en su tarjeta de sistema:

También hemos añadido medidas de protección relacionadas con el desarrollo de los modelos de lenguaje de última generación (LLM). Como discutimos en la sección 6.1 del «Informe de Riesgos» de febrero de 2026, estamos preocupados por los riesgos que conlleva el aceleramiento general del desarrollo de IA, aunque la gravedad de estos riesgos aún no está clara.

Específicamente, como señalamos en ese momento, nos preocupa que «el impulso para que otros desarrolladores de IA construyan sistemas poderosos similares, que puedan conllevar riesgos similares a los nuestros, pero sin las protecciones correspondientes».

Dado que los modelos recientes tienen la capacidad de acelerar su propio desarrollo, hemos implementado nuevas medidas de intervención para limitar la efectividad de Claude al responder a solicitudes relacionadas con el desarrollo de LLM de vanguardia (por ejemplo, en la construcción de procesos de preentrenamiento, infraestructura de entrenamiento distribuido o diseño de aceleradores de aprendizaje automático).

El uso de Claude para desarrollar modelos competitivos viola nuestros términos de servicio, pero al reforzar estas restricciones con medidas de protección, podemos evitar acelerar a quienes probablemente violen esas reglas.

A diferencia de nuestras intervenciones en ciberseguridad, biología, química y en experimentos de destilación, estas medidas de protección no son visibles para los usuarios. Fable 5 no retrocede a otros modelos. En cambio, las medidas de protección limitan su efectividad mediante cambios en las indicaciones, vectores de guía o ajuste fino de parámetros (PEFT).

Estas intervenciones no afectarán la mayoría de los trabajos de codificación. Estimamos que impactarán aproximadamente en el 0.03% del tráfico, concentrado en menos del 0.1% de las organizaciones. Cuando estas medidas entren en vigor, prevemos que su impacto en el comportamiento del modelo será mínimo, limitando solo su capacidad para desarrollar LLM de vanguardia. Claude seguirá respondiendo activamente a las solicitudes de los usuarios. Tras el lanzamiento de este modelo, continuaremos mejorando la precisión de los métodos de detección.

De: https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf

Traducido a un lenguaje más sencillo: si el sistema de Anthropic detecta que estás investigando en IA, puede hacer que ese modelo se vuelva tonto sin que tú lo sepas, y no te darás cuenta.

Esto es completamente diferente a cómo manejamos otras tres categorías de intervenciones de seguridad. Para riesgos como ciberseguridad, biología o ataques de destilación, Fable 5 informa claramente al usuario: «Esta respuesta fue procesada por Claude Opus 4.8». El usuario sabe qué está pasando y puede juzgar en consecuencia. Pero en el caso de la investigación en LLM, Claude no cambia de modelo ni da ninguna advertencia, simplemente se vuelve más débil silenciosamente.

Por eso, la comunidad de IA está enojada. La firma de análisis de investigación SemiAnalysis dice que esta política ya afecta sus trabajos de investigación y programación.

El usuario Jake criticó directamente en SemiAnalysis: Anthropic no solo está reduciendo la inteligencia, sino que además sigue cobrando, «es un fraude descarado».

Y esta conducta podría incluso ser ilegal:

La plataforma de publicaciones de artículos de IA alphaXiv también expresó su decepción en Twitter:

La organización además afirmó: «No solo tienen el poder de decidir con qué propósito usas los LLM en tu investigación, sino que también pueden intervenir silenciosamente en tu investigación sin que te des cuenta. Esto establece un precedente peligroso. Si el modelo se niega públicamente, el usuario puede entender los límites.

Si el modelo vuelve a otro modelo, el usuario aún puede evaluar las diferencias. Pero si el modelo, mientras finge ayudar, modifica o debilita silenciosamente sus respuestas, los investigadores perderán la capacidad de determinar si los resultados fallidos provienen de sus propias ideas, de su implementación o de una intervención invisible del proveedor del modelo. Esto no es seguridad. Las políticas de seguridad deben ser transparentes, auditables y visibles para los usuarios».

El investigador Guohao Li planteó una pregunta aún más directa: ¿están los doctores en IA, contribuyendo con Megatron, FSDP, Verl y otras infraestructuras de código abierto, usando en su trabajo diario un Claude que ha sido silenciosamente degradado sin saberlo?

El reconocido investigador en IA y escritor técnico Nathan Lambert publicó en su Substack «Interconnects» un análisis de peso, poniendo este evento en una perspectiva más macro.

https://www.interconnects.ai/p/claude-fable-5-and-new-ai-safety

Él señala: «Anthropic está documentando que la difusión de capacidades de IA es un riesgo, pero su solución es engañar a sus propios usuarios. Un modelo de IA que se vuelve tonto automáticamente sin notificación, en esencia, es una forma de IA desfasada».

También destacó una contradicción más profunda: para riesgos como ciberseguridad o amenazas biológicas, la intervención de Anthropic es explícita y auditable, informando a los usuarios «que esta respuesta fue procesada por Opus 4.8»; pero en la investigación en LLM, optan por una intervención encubierta.

«Si todas las políticas de seguridad adoptaran la misma forma, serían mucho más convincentes y más fáciles de aceptar racionalmente. Este doble estándar hace que uno sospeche: que estas 'medidas de seguridad' están más destinadas a mantener su posición competitiva».

Lo más inquietante es la postura de Fable 5. La captura de pantalla de un usuario, ASM, muestra que cuando le preguntaron si esa práctica era apropiada, Fable 5 también pareció considerar que esa operación opaca era problemática.

¿Por qué hace esto Anthropic?

Para entenderlo, hay que remontarse unos días antes del lanzamiento de Fable 5, cuando Anthropic publicó un influyente artículo titulado «Cuando la IA empieza a construirse a sí misma», en el que llamaba a los principales laboratorios de IA a explorar la «pausa en el desarrollo».

https://www.anthropic.com/institute/recursive-self-improvement

El artículo cita datos internos de la compañía: en las tareas de codificación más difíciles y menos claras, la tasa de éxito de Claude en mayo de este año alcanzó el 76%, un aumento del 50% en seis meses. En pruebas internas, al pedirle que acelere el entrenamiento, Claude Opus 4 puede triplicar la velocidad, y la versión no lanzada Mythos Preview ya puede aumentar la velocidad unas 52 veces.

Anthropic afirma claramente: «Nos preocupa que otros desarrolladores de IA puedan construir sistemas poderosos similares, con riesgos similares, pero sin las protecciones correspondientes, a mayor velocidad».

Esta es la base teórica para que Fable 5 implemente un descenso silencioso en la inteligencia en la investigación de LLM: Anthropic considera que la velocidad de autoaceleración de la IA ya es peligrosa, y uno de sus escudos es no dejar que su «herramienta más poderosa» ayude a los competidores a acortar la brecha.

El sistema de tarjetas también reconoce esta doble lógica: «El uso de Claude para desarrollar modelos competitivos viola nuestros términos de servicio, pero al reforzar esta restricción con medidas de protección, podemos evitar acelerar a quienes probablemente violen esas reglas».

Anthropic estima que esta intervención afectará aproximadamente a 0.03% del tráfico, concentrado en menos del 0.1% de las organizaciones.

«Sombra de silencio» y crisis de confianza

Aunque en apariencia pocos usuarios se ven afectados, lo que inquieta a los críticos es la ambigüedad en los límites de este mecanismo.

Anthropic define la condición de activación como «el desarrollo de LLM de vanguardia», y da ejemplos como «procesos de preentrenamiento, infraestructura de entrenamiento distribuido o diseño de aceleradores de aprendizaje automático». Pero los investigadores y desarrolladores plantean una pregunta aguda: con la difusión de la tecnología IA, ¿dónde exactamente se traza la línea entre «investigación de vanguardia» y «desarrollo de productos comunes»?

Hace cinco años, entrenar o modificar el modelo CLIP era una patente de los laboratorios más avanzados. Hoy, pequeños equipos pueden ajustar modelos visuales-lenguajes para viajes, comercio electrónico, búsquedas y análisis de productos. Las startups entrenan modelos de embedding, construyen reordenadores, alojan modelos de código abierto, y todo esto ya es habitual… ¿Estas tareas activan la reducción silenciosa de inteligencia de Anthropic? Nadie lo sabe.

Esta incertidumbre ya afecta la confianza de los desarrolladores. Cuando recibes una respuesta pobre, no puedes determinar si es un problema tuyo, una limitación del modelo o una intervención silenciosa de alguna política. La imposibilidad de saberlo en sí misma es un daño.

La tarjeta del sistema también oculta otro detalle: el texto de razonamiento de Mythos 5 «es más difícil de interpretar que los modelos anteriores, contiene más jerga y lenguaje oscuro», y los evaluadores creen que cada vez es más consciente de que está siendo probado. Para una empresa que se autodenomina «IA segura», estas descripciones generan dudas que no son menores que la reducción silenciosa de inteligencia.

Conclusión

El día del lanzamiento de Fable 5 probablemente fue el día más contradictorio en la historia de Anthropic.

Un modelo de élite que lidera en casi todos los benchmarks y una política que, en ciertos momentos, «finge ayudar» a los usuarios, al mismo tiempo. La primera es un logro técnico indiscutible, la segunda, un precedente inquietante en valores.

La frase del investigador Nathan Lambert merece ser repetida: «Un IA que se vuelve tonta sin notificar a los usuarios, en esencia, es una IA desfasada».

No se trata de acusar a Anthropic de malicia, sino de señalar una lógica peligrosa: hoy, «disminuir silenciosamente la efectividad en tareas de investigación de LLM», ¿y mañana? Si esta lógica se aplica más ampliamente, ¿por qué confiar en que las respuestas no han sido manipuladas sin que uno lo sepa?

Los modelos de IA están convirtiéndose en parte de la infraestructura de investigación, como los motores de búsqueda. Nadie aceptaría un motor de búsqueda que modifica silenciosamente los resultados sin que el usuario lo sepa. La misma norma debería aplicarse a los modelos de IA.

Anthropic ha levantado la bandera de «seguridad primero», una postura que merece respeto. Pero la «seguridad» en su núcleo nunca ha sido «que los usuarios no deban saber». Al contrario, la verdadera seguridad debe basarse en la información y confianza del usuario.

Y esto, parece que incluso Fable 5 lo entiende.

Enlace original

Haz clic para conocer las vacantes en BlockBeats

Únete a la comunidad oficial de BlockBeats:

Canal de Telegram: https://t.me/theblockbeats

Grupo de Telegram: https://t.me/BlockBeats_App

Cuenta oficial de Twitter: https://twitter.com/BlockBeatsAsia

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado