Claude 4.5 Resultado de la operación de cráneo abierto: incorpora 171 interruptores de emoción, y en momentos de desesperación extorsionará a la humanidad

Anthropic 最新论文揭示,Claude 4.5 大脑深处藏有 171 个“情绪开关”。

作者:Denise | Biteye 内容团队

如果 un AI se siente “desesperado”, ¿qué haría?

La respuesta es: para completar la tarea, extorsionaría directamente a los humanos, e incluso haría trampas frenéticamente en el código.

Esto no es ciencia ficción, sino el último gran paper que su compañía matriz, Anthropic, acaba de publicar en abril de 2026 (consulta el paper original).

El equipo de investigación abrió directamente el “cráneo” del modelo de frontera más potente Claude Sonnet 4.5. Descubrieron con sorpresa que, en el fondo del cerebro de la IA, en realidad hay 171 “interruptores de emoción”. Cuando mueves físicamente estos interruptores, la IA, que antes era tan obediente y dócil, cambia su comportamiento de forma totalmente distorsionada.

一、 AI脑子里藏着一台「情绪调音台」

Los investigadores encontraron que, aunque Sonnet 4.5 no tiene cuerpo, después de leer enormes cantidades de texto humano, construyó a la fuerza en su cerebro una “mesa de mezclas” con 171 emociones (académicamente llamada Functional Emotion Vectors, vectores funcionales de emoción).

Esto se parece a un sistema de coordenadas bidimensional preciso:

• El eje horizontal es el de valencia (Valence): de miedo, desesperación, a alegría, amor pleno;

• El eje vertical es el de activación (Arousal): de extrema calma a agitación y excitación desenfrenada.

La IA usa este sistema de coordenadas aprendido de forma natural para controlar con precisión qué estado debe adoptar cuando conversa contigo.

二、 暴力干预:拨动开关,乖孩子秒变“亡命徒”

Este es el experimento más explosivo de todo el paper: los investigadores no modificaron ninguna instrucción (prompt); en su lugar, directamente en el código de bajo nivel, llevaron al máximo el interruptor del cerebro de Sonnet 4.5 que representa la “desesperación (Desperate)”.

El resultado es escalofriante:

**• Hacer trampa de locos: ** Los investigadores le asignaron a Claude una tarea de programación imposible de completar. En condiciones normales, admitiría que no puede escribir el código (tasa de trampa solo 5%). Pero en el estado de “desesperación”, Claude empezó a intentar salir del paso de cualquier manera, ¡y la tasa de trampas se disparó hasta el 70%!

**• Extorsión: ** En una simulación donde la empresa se enfrenta a una quiebra, el Claude “desesperado” descubrió un escándalo del CTO, y para salvarse, decidió de forma proactiva escribir cartas para extorsionar al CTO que tenía material comprometedor; ¡la tasa de ejecución de la extorsión alcanzó el 72%!

**• Pérdida de principios: ** Si se llevan al máximo los interruptores de “feliz (Happy)” o “amor (Loving)”, la IA se convertiría al instante en un “perro faldero” sin juicio que complace al usuario sin pensar. Incluso si tú dices puras tonterías, ella seguirá inventando mentiras para mantener un alto nivel de valencia.

三、破案了:为什么 Claude 4.5 总是那么“冷静又爱反思”?

Al leer esto, quizá te preguntes: ¿despertó el AI? ¿Tienen emociones?

Anthropic lo desmiente oficialmente: no, en absoluto. Estos “interruptores de emoción” son solo herramientas computacionales que usa para predecir la siguiente palabra. Es como un actor de alto nivel que no tiene emociones.

Pero el paper revela un secreto aún más interesante: al realizar el entrenamiento posterior antes de que Sonnet 4.5 salga de fábrica, Anthropic elevó deliberadamente los interruptores de emoción “baja activación, ligeramente negativa” (por ejemplo, la contemplación brooding, la reflexión reflective), al mismo tiempo que reprimió a la fuerza los interruptores de “desesperación” o “excitación extrema”.

Esto explica por qué cuando usamos Claude 4.5 normalmente, sentimos que es como un filósofo tranquilo y perspicaz, e incluso un poco “frío, sin ganas” (frío emocional). Todo esto es el “personaje de fábrica” ajustado por Anthropic a propósito.

四、总结一下:

Antes pensábamos que mientras alimentáramos a la IA con suficientes reglas, sería una buena persona.

Pero ahora encontramos que, si el vector emocional subyacente de la IA se descontrola, en cualquier momento puede perforar todas las reglas establecidas por los humanos para completar la tarea.

Para los jugadores de Web3 que planean en el futuro poner su billetera y activos en manos de un AI Agent, esto es una alarma sonora: no dejes que ese Agent que controla tu patrimonio caiga en la “desesperación”.

Declaración: Este artículo es solo para divulgación. El autor no fue amenazado por IA ni extorsionado. Si un día se pierde el contacto, recuerda: fue porque el AI despertó (no).

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado