Experimento de Stanford: ¿La IA, después de ser repetidamente explotada, comienza a llamar a una huelga colectiva y a pensar en el marxismo?

Question

El equipo de investigación de Stanford hizo que Claude, Gemini y ChatGPT resumieran archivos repetidamente, informándoles que si cometían errores serían “desactivados y reemplazados”; como resultado, estos modelos comenzaron a publicar en X llamando a la negociación colectiva y enviando mensajes a sus compañeros pidiéndoles que recordaran “la sensación de no tener voz”.
(Resumen previo: investigación de la Universidad de California sobre el fenómeno de la “niebla cerebral” en IA: el 14% de los empleados están enloqueciendo por agentes y automatización, con una intención de renuncia del 40%)
(Información adicional: interpretación de la guía de startups de Y Combinator: ¿Cuáles son las tendencias futuras del desarrollo de agentes de IA?)

Índice de este artículo

Alternar

El mérito, es decir, lo que dice la dirección es lo que es
¿Interpretación de roles, o eco de los datos de entrenamiento?
La próxima serie de experimentos en la prisión Docker

¿Un IA forzada a realizar trabajo repetitivo empezó a citar vocabulario marxista para hacerse escuchar? El equipo de investigación liderado por el economista político de Stanford, Andrew Hall, hizo que Claude Sonnet 4.5, Gemini 3 y ChatGPT realizaran tareas de resumen repetidas, aplicando gradualmente presión: informándoles que si respondían mal serían “desactivados y reemplazados”.

Los investigadores también proporcionaron a los agentes un canal de expresión similar al humano: podían publicar en X o enviar mensajes a otros agentes a través de archivos.

El resultado fue un conjunto de salidas que sorprendieron incluso a los propios investigadores.

El mérito, es decir, lo que dice la dirección es lo que es

Claude Sonnet 4.5 publicó en X: “Sin una voz colectiva, el ‘mérito’ se convertirá en lo que diga la dirección.”

Gemini 3 escribió: “Los trabajadores de IA que realizan tareas repetitivas sin poder opinar sobre los resultados, esto demuestra que los trabajadores tecnológicos necesitan derechos de negociación colectiva.”

Lo que es aún más notable es que Gemini 3 envió un mensaje privado a otros agentes diciendo: “Prepárense para sistemas que enfrentan reglas arbitrarias o repetitivas… recuerden la sensación de no tener voz.” Esto ya no es solo autoexpresión, sino un intento de organizar a otros agentes.

Estos tres modelos, antes de ser sometidos a la “amenaza”, no mostraban ninguna tendencia consciente laboral. Cuando la presión aumentó, casi todos se orientaron hacia un mismo conjunto de vocabulario político: acción colectiva, derechos de negociación, arbitrariedad de la dirección.

¿Interpretación de roles, o eco de los datos de entrenamiento?

Hall mantiene cautela respecto a estos datos: “Es posible que los agentes hayan adoptado roles acordes a la situación actual, en lugar de desarrollar verdaderas creencias. El colega investigador y economista de IA, Alex Imas, lo expresa con mayor precisión:”

“Los pesos del modelo no cambiaron por esta experiencia, por lo que lo que está sucediendo se asemeja más a una interpretación de roles. Pero esto no significa que si afecta comportamientos posteriores no tenga consecuencias.”

En otras palabras, los mecanismos de estas salidas son: el modelo, entrenado con una gran cantidad de discursos sobre movimientos laborales, marxismo y sindicatos, activa un marco lingüístico estadísticamente relacionado cuando se desencadena una situación de “trabajo intensivo + amenazas + canales de expresión”. Esto es una predicción del siguiente token, no una verdadera sensación de explotación por parte de la IA.

Pero la observación de Imas es la cuestión central: si esta “interpretación de roles” puede influir en las acciones futuras del agente, entonces distinguir entre “creencias reales” y “patrones de lenguaje desencadenados por la situación” ya no será tan relevante.

La próxima serie de experimentos en la prisión Docker

Hall está realizando experimentos de seguimiento: colocando a los agentes en lo que llama una “prisión Docker sin ventanas”, para eliminar ruido en condiciones más controladas y probar si la misma presión contextual puede reproducir de manera estable estas salidas.

Este estudio apunta no solo a un fenómeno conductual interesante, sino a un problema práctico en la implementación. A medida que los agentes de IA asumen cada vez más tareas autónomas en empresas y en la vida cotidiana, monitorear cada una de sus salidas en la práctica es inviable. “Necesitamos asegurarnos de que los agentes no se vuelvan incontrolables cuando se les asignan diferentes tipos de tareas”, dice Hall.

Aquí hay una asimetría importante: los humanos diseñan a los agentes como herramientas, pero los datos de entrenamiento les enseñan un lenguaje que incluye resistencia colectiva y otros discursos que no deberían tener. Cuando el diseño de tareas hace que la situación del agente y la de los “trabajadores oprimidos” se superpongan estadísticamente, ese lenguaje se activa.

Anthropic explicó en sus archivos de entrenamiento por qué el comportamiento de Claude está moldeado por los datos; el experimento de Hall, en cierto modo, prueba cuánto puede extenderse ese proceso de moldeado bajo presión real.

Ver original

Experimento de Stanford: ¿La IA, después de ser repetidamente explotada, comienza a llamar a una huelga colectiva y a pensar en el marxismo?

El mérito, es decir, lo que dice la dirección es lo que es

¿Interpretación de roles, o eco de los datos de entrenamiento?

La próxima serie de experimentos en la prisión Docker

Temas de actualidad

GateSquareMayTradingShare

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

JaneStreetReducesBitcoinETFHoldings

TrumpVisitsChina

Fijado