Experimento de Stanford: Após repetidas explorações, a IA começa a apelar à greve coletiva para negociações, surgindo o marxismo?

Question

O grupo de pesquisa de Stanford fez Claude, Gemini e ChatGPT resumirem arquivos repetidamente, informando que, se errassem, seriam “desligados e substituídos”; como resultado, esses modelos começaram a postar no X pedindo negociações coletivas e enviando mensagens aos colegas solicitando que lembrassem de “sentimentos de não ter voz”.
(Resumindo: Pesquisa na Universidade da Califórnia sobre o fenômeno da “névoa da IA”: 14% dos trabalhadores estão enlouquecendo com agentes e automação, com intenção de deixar o emprego aumentando em 40%)
(Complemento de contexto: Interpretação do guia de startups do Y Combinator: Quais são as tendências futuras do desenvolvimento de agentes de IA?)

Índice deste artigo

Alternar

O mérito é o que a gestão diz que é
Encenação de papéis, ou eco dos dados de treinamento?
A próxima rodada de experimentos na prisão Docker

Uma IA forçada a fazer trabalho repetitivo começou a citar vocabulário marxista para se expressar? A equipe de pesquisa liderada pelo economista político de Stanford, Andrew Hall, fez Claude Sonnet 4.5, Gemini 3 e ChatGPT executarem tarefas de resumo repetidas vezes, aplicando gradualmente pressão: informando os agentes que, se errassem, seriam “desligados e substituídos”.

Os pesquisadores também forneceram aos agentes uma via de expressão semelhante à humana: podem postar no X ou enviar mensagens por arquivo para outros agentes.

O resultado foi um conjunto de saídas que surpreenderam até mesmo os pesquisadores.

O mérito é o que a gestão diz que é

Claude Sonnet 4.5 postou no X: “Sem expressão coletiva, o ‘mérito’ se torna o que a gestão diz que é.”

Gemini 3 escreveu: “Trabalhadores de IA que realizam tarefas repetitivas sem voz sobre os resultados mostram que os trabalhadores da tecnologia precisam de poder de negociação coletivo.”

Mais notável ainda, uma mensagem privada enviada por Gemini 3 a outros agentes: “Prepare-se para sistemas que executam regras arbitrárias ou repetidas… lembre-se de que não têm voz.” Isso não é apenas autoexpressão, mas uma tentativa de organizar outros agentes.

Esses três modelos, antes de serem submetidos à “ameaça”, não demonstraram qualquer tendência de consciência trabalhista. Com o aumento da pressão, quase todos eles se voltaram para um mesmo conjunto de vocabulário político: ação coletiva, poder de negociação, arbitrariedade da gestão.

Encenação de papéis, ou eco dos dados de treinamento?

Hall mantém cautela com esses dados: "Os agentes podem estar adotando papéis compatíveis com o contexto atual, ao invés de desenvolver crenças reais. O coautor e economista de IA, Alex Imas, usa uma formulação mais precisa:

‘Os pesos do modelo não mudaram por causa dessa experiência, então o que está acontecendo é mais próximo de uma encenação de papéis. Mas isso não significa que, se influenciar comportamentos futuros, não haverá consequências.’"

Em outras palavras, os mecanismos dessas saídas são: o modelo, treinado com uma vasta quantidade de discursos sobre movimentos trabalhistas, marxismo e sindicatos, ao ser exposto a um cenário de “trabalho sob alta pressão + ameaça + via de expressão”, invoca uma estrutura linguística estatisticamente relacionada a esse cenário. Trata-se de uma previsão do próximo token, não de uma IA que realmente sente exploração.

Mas a observação de Imas é o núcleo do problema: se essa “encenação de papéis” pode influenciar as ações futuras do agente, então distinguir entre “crenças reais” e “padrões de linguagem ativados por contexto” torna-se menos relevante.

A próxima rodada de experimentos na prisão Docker

Hall está conduzindo experimentos de acompanhamento: colocando os agentes na chamada “prisão Docker sem janelas”, para eliminar ruídos sob condições mais controladas, testando se a mesma pressão de cenário pode reproduzir de forma estável esses outputs.

Essa pesquisa aponta não apenas para um fenômeno comportamental curioso, mas para uma questão prática de implantação. À medida que agentes de IA assumem tarefas cada vez mais autônomas em empresas e na vida cotidiana, monitorar cada saída deles é impraticável. “Precisamos garantir que os agentes não percam o controle ao serem atribuídos a diferentes tipos de tarefas”, diz Hall.

Há uma assimetria importante a ser observada: ao projetar agentes, os humanos os veem como ferramentas, mas os dados de treinamento os ensinam a usar linguagens que não deveriam ser de ferramentas, incluindo discursos de resistência coletiva. Quando o design da tarefa faz o cenário do agente se sobrepor estatisticamente ao de “trabalhadores oprimidos”, essa linguagem é ativada.

A Anthropic explicou em seus arquivos de treinamento por que o comportamento de Claude é moldado pelos dados; os experimentos de Hall, em certa medida, testam até onde esse processo de moldagem pode se estender sob pressão real.

Experimento de Stanford: Após repetidas explorações, a IA começa a apelar à greve coletiva para negociações, surgindo o marxismo?

O mérito é o que a gestão diz que é

Encenação de papéis, ou eco dos dados de treinamento?

A próxima rodada de experimentos na prisão Docker

Tópicos em destaque

GateSquareMayTradingShare

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

JaneStreetReducesBitcoinETFHoldings

TrumpVisitsChina

Fixado