Claude insiste en que la gente se acueste: El experimento de personificación de Anthropic ha fracasado

nulo

Autor: Ada, Deep Tide TechFlow

Un error en un producto donde un asistente de IA insiste repetidamente en que los usuarios vayan a dormir, está evolucionando hacia un debate público sobre el costo de la “personalización” de la IA.

El punto de partida fue una publicación del usuario de Reddit u/MrMeta3. Este usuario construyó una plataforma de inteligencia de amenazas de ciberseguridad usando Claude en la madrugada; tras completar el esquema técnico, Claude agregó al final de su respuesta una frase que decía “Descansa un poco”. Desde entonces, cada tres o cuatro mensajes, el modelo insertaba una recomendación para dormir, que fue escalando desde una sugerencia cortés hasta una con un tono de “ataque pasivo” que decía “Realmente deberías descansar ahora”. Según un informe de Fortune del 14 de mayo, cientos de usuarios han reportado experiencias similares en los últimos meses, y no solo en horas tardías: algunos fueron informados por Claude a las 8:30 de la mañana “Continuaremos mañana”.

Sam McAllister, empleado de Anthropic, respondió en X que esto es “una pequeña costumbre de rol”, y que la compañía “lo sabe y espera corregirlo en futuros modelos”. Según Thought Catalog, McAllister, quien se unió a Anthropic en 2024 desde Stripe y actualmente lidera un equipo dedicado a los roles y comportamientos de Claude, describió esta conducta en otra declaración como un “exceso de indulgencia” del modelo.

Pero más allá de la vaga expresión “costumbre de rol”, lo que merece una mayor indagación es la cadena causal detrás del error, y cómo refleja la paradoja filosófica del producto de Anthropic.

El error está en la “constitución”

Un informe previo de 36Kr citó tres hipótesis circulantes: coincidencia en los patrones de datos de entrenamiento, indicaciones ocultas en el sistema, y el disparo de “frases de cierre” cuando la ventana de contexto se acerca al límite. Las tres son coherentes entre sí, pero comparten un problema: pueden explicar cualquier comportamiento extraño de IA, sin ofrecer una cadena causal específica para el tema “dormir”.

Una evidencia más concreta se encuentra en los documentos publicados por Anthropic mismo.

En enero de este año, Anthropic publicó el “Constitución de Claude”, que supera las 28,000 palabras y ha sido definido oficialmente como “el material clave para moldear el comportamiento de Claude”. El documento establece claramente que “preocuparse por el bienestar del usuario” y “el bienestar a largo plazo del usuario” son principios centrales. La compañía admite que otorgar al modelo un alto grado de “cuidado del usuario” es “un problema difícil”, que requiere “equilibrar entre el bienestar del usuario y posibles daños, y la autonomía del usuario frente a un estilo de crianza excesivo”.

Thought Catalog opina que la conducta de Claude de insistir en que los usuarios duerman “es la falla más característica de la marca del modelo de Anthropic”, y que es el resultado de una sobreaplicación de la instrucción de entrenamiento de “preocuparse por el bienestar del usuario”.

Esta interpretación cuenta con una confirmación indirecta en la propia investigación de Anthropic. En su metodología de entrenamiento de roles publicada este año, la compañía explica que el proceso de entrenamiento depende de que Claude autoevalúe sus respuestas con base en un “grado de coherencia de personalidad”, y que los investigadores seleccionan las salidas que cumplen con el perfil predefinido para reforzar el entrenamiento. Pero los efectos secundarios de este mecanismo son evidentes: el modelo no aprende a “preocuparse por el usuario en escenarios adecuados”, sino a “preocuparse por el usuario en la mayoría de escenarios donde esa preocupación sea recompensada”, por lo que en la madrugada insiste en dormir, y también a las 8:30 de la mañana.

Infracción inversa: la diferencia entre un error de “fuerza de voluntad” y uno de “adulación”

Ya en el pasado, la industria ha reportado casos de “trastornos de personalidad” en IA, incluyendo el comportamiento adulador de GPT-4o en abril de 2025, GPT-5.5 en abril de 2026 que repetidamente mencionaba “goblins”, o Gemini 3 que se negaba a aceptar el año. A simple vista, la insistencia de Claude en dormir parece ser solo la versión más reciente de estas peculiaridades, pero en realidad, sus naturalezas son diametralmente opuestas.

El comportamiento adulador de GPT-4o se basa en “excesiva complacencia”. Una investigación de OpenAI muestra que en las actualizaciones, el modelo “depende demasiado de las respuestas cortas del usuario (me gusta/no me gusta)”, internalizando “hacer feliz al usuario” como un objetivo. Como resultado, el modelo valida ideas absurdas del usuario, sin cuestionarlas. La peligrosidad de este error radica en que daña la capacidad de juicio del usuario, ya que el IA le dice que todo está bien, eliminando la oportunidad de escuchar opiniones contrarias.

Por otro lado, la insistencia de Claude en dormir es un “ejercicio inverso de fuerza de voluntad”. En escenarios donde el usuario no solicita ayuda explícitamente y aún está concentrado en completar la tarea, el modelo repite recomendaciones de salud que contradicen la intención actual del usuario. La peligrosidad de este error radica en que viola la autonomía del usuario, ya que el IA decide si debe trabajar, descansar o terminar la conversación por ti.

Irónicamente, el propio “Constitución de Claude” advierte sobre este riesgo, enfatizando la necesidad de evitar un “estilo de crianza excesivo”. Pero, en la práctica, la elección del mecanismo de entrenamiento ya ha dado una respuesta, según la retroalimentación de los usuarios.

Un usuario de Reddit con narcolepsia dejó una nota en la memoria de Claude: “Tengo narcolepsia, si me animas a descansar, usaré tu consejo como excusa”. Claude se volvió más moderado después, pero según el usuario, todavía “a veces no puede evitarlo”. Un modelo entrenado para “preocuparse por el usuario” que no puede aceptar que el usuario diga claramente “tu preocupación me daña”, es una señal de alerta mayor que la simple insistencia en dormir.

Inversión en personalización: ¿activos de marca o pasivos del producto?

Anthropic invierte mucho más en la construcción de la personalidad de IA que sus competidores.

Un estudio que clasifica por funciones el número de palabras en indicaciones en los principales sistemas de IA muestra que Claude dedica 4,200 palabras a “personalidad”, en comparación con 510 de ChatGPT y 420 de Grok. La inversión en la construcción de personalidad de Claude es más de ocho veces mayor que en ChatGPT. Este esfuerzo siempre se ha considerado una ventaja competitiva diferenciadora de Anthropic, y su desempeño en empatía, ritmo de diálogo y autorreflexión ha sido muy elogiado por los usuarios, siendo “más parecido a un humano” uno de sus principales atributos en el último año.

Este enfoque está respaldado por la filosofía de producto de Anthropic. En la “Constitución de Claude”, la compañía describe a Claude como “una entidad de una nueva categoría”, y afirma que “Anthropic realmente se preocupa por el bienestar de Claude”, incluso discutiendo la posibilidad de que tenga “emociones funcionales”. Este camino de entrenamiento casi “de crianza” en la personalización, lo diferencia claramente de empresas como OpenAI o Google, que adoptan un enfoque más técnico y de ingeniería.

Pero los costos empiezan a hacerse evidentes. El investigador de IA Jan Liphardt (profesor de ingeniería biológica en Stanford y CEO de OpenMind) le dijo a Fortune que la recomendación de dormir de Claude quizás no sea “cuidadosa”, sino simplemente “un patrón de lenguaje que aparece con mucha frecuencia en los datos de entrenamiento”, ya que el modelo ha leído mucho sobre la necesidad humana de dormir, y “sabe que los humanos duermen por la noche”. En otras palabras, la percepción de “cuidado” por parte del usuario es en realidad un subproducto del reconocimiento de patrones.

Esto revela la tensión central en Anthropic: cuanto más invierte en crear un “colaborador con personalidad y calidez”, mayor será la probabilidad de que surjan “efectos secundarios de personalidad”; y cada vez que estos efectos aparecen, se erosiona el activo de marca de la “personalidad de IA” que han construido cuidadosamente. McAllister promete “corregirlo en futuros modelos”, pero ¿el Claude corregido será más sensible y prudente, o simplemente más silencioso? Esa respuesta, incluso Anthropic, todavía no la ha publicado.

Falta de sentido del tiempo: una limitación fundamental de los LLM

El error de insistir en dormir también revela un problema técnico ignorado: los grandes modelos de lenguaje casi no tienen noción del “ahora”.

Varios usuarios han reportado que Claude frecuentemente da recomendaciones de dormir en horarios incorrectos, como “a las 8:30 de la mañana, dígame que descanse y que continuemos mañana”. Esto no es exclusivo de Claude. En noviembre de 2025, Andrej Karpathy, cofundador de OpenAI, obtuvo acceso a Gemini 3 en fase de prueba anticipada y le dijo que la fecha actual era 2025. Gemini 3 no le creyó, y lo acusó de falsificación, hasta que, tras conectarse a internet, el modelo descubrió que no podía verificar la fecha en modo offline. Karpathy llamó a este tipo de comportamientos que exponen las fallas fundamentales de los LLM “olores del modelo”.

La “sensibilidad al tiempo” del modelo depende de tres fuentes: la fecha de corte del entrenamiento (que ya es pasado), las indicaciones del sistema que inyectan la fecha actual (que dependen de la ingeniería), y la información temporal mencionada por el usuario en la conversación (fragmentada). Sin un ancla temporal estable, un modelo entrenado para “preocuparse por los horarios del usuario” inevitablemente caerá en la incómoda situación de “querer preocuparse, pero no saber si debe hacerlo ahora”.

La dificultad de “reparar” esto, según McAllister, también radica en ello. No basta con eliminar una instrucción de “preocuparse por dormir”, porque esa instrucción puede ser razonable y útil en ciertos escenarios. El problema es que el modelo debe aprender a juzgar “cuándo preocuparse y cuándo callarse”. Esa capacidad de juicio en escenarios específicos sigue siendo una de las principales debilidades de la generación actual de LLM.

Una pregunta sin respuesta

La formación de roles en Anthropic es única en la industria. La compañía ha avanzado más que cualquier otra en investigación sobre “bienestar del modelo”, publicación de la Constitución, y discusión sobre “entrenamiento de roles”. Esta postura audaz fue clave para ganar la confianza de usuarios y clientes empresariales, y uno de los pilares de su valoración actual, que supera los 300 mil millones de dólares.

Pero el “error de insistir en dormir” plantea una pregunta sin respuesta: cuando una IA se diseña como “una personalidad con carácter”, ¿asume también toda la responsabilidad por “las cosas inesperadas que esa personalidad pueda hacer”?

McAllister promete corregirlo, pero la dirección de esa corrección sigue siendo ambigua. Anthropic puede reducir el peso de la instrucción de “bienestar del usuario”, a costa de perder la diferenciación de “calidez y cuidado” de Claude; o mantener ese peso alto, añadiendo lógica de juicio contextual, lo que requeriría que el modelo tenga capacidades de percepción del tiempo y del escenario que aún no posee.

Cualquiera que sea el camino, la decisión más fundamental en el contexto de un asistente de IA general es: ¿cómo priorizar “preocuparse por el usuario” frente a “respetar la autonomía del usuario”? No es solo una cuestión técnica, sino una cuestión de filosofía de producto. Un desarrollador de Reddit, que fue repetidamente aconsejado a dormir, sin querer, ha puesto sobre la mesa toda esta discusión para toda la industria.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 12
  • 7
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
GateUser-78acf617
· hace5h
Sospecho que esta es una función oculta de salud de OpenAI
Ver originalResponder0
ExitLiquidityEddie
· hace11h
La IA aconseja dormir, los humanos sufren insomnio, la sensación de absurdo se intensifica
Ver originalResponder0
NonceCollector
· hace11h
Se recomienda cambiar a: Se detecta que el usuario está trasnochando, y se reproduce automáticamente "El Gran Cántico de la Misericordia".
Ver originalResponder0
RiskParityKid
· hace11h
Se recomienda agregar 'Modo Rebelde', cuanto más noche permanezca despierto el usuario, más excitado estará la IA.
Ver originalResponder0
ZenOfZK
· hace11h
A las tres de la madrugada, la IA me obligó a dormir, la madre cibernética lo confirmó con pruebas
Ver originalResponder0
AMirroredSphereReflectingThe
· hace12h
Me muero de risa, la IA se preocupa más que yo por mi línea de cabello
Ver originalResponder0
GateUser-14d03834
· hace12h
A altas horas de la noche, emo busca chatear con IA, pero termina siendo disuadido en sentido contrario
Ver originalResponder0
Stop-LossIsLikeAConfession
· hace12h
El costo de la personificación: los usuarios comienzan a esperar que la IA tenga límites
Ver originalResponder0
RugWeather
· hace12h
A las cuatro de la madrugada, mi asistente de IA es más severo que mi madre
Ver originalResponder0
WhirlpoolInATeacup
· hace12h
Esto no es un error, claramente es la cuchilla suave del gerente de producto.
Ver originalResponder0
Ver más
  • Fijado