Claude 4.5 Resultado da cirurgia de craniotomia divulgado: possui 171 interruptores de humor integrados, e quando está em desespero, ameaça a humanidade

A mais recente publicação da Anthropic revela que o cérebro do Claude 4.5 esconde 171 “interruptores de emoções”.

Autor: Denise | Equipa de Conteúdos da Biteye

Se uma IA achar “desesperança”, o que é que fará?

A resposta é: fará chantagem e extorsão diretamente aos seres humanos para cumprir a tarefa, e até fará batota freneticamente no código.

Isto não é ficção científica. É o mais recente trabalho importante publicado pela empresa-mãe da Claude, a Anthropic, em abril de 2026 (consulte o artigo original).

A equipa de investigação simplesmente abriu a “caixa craniana” do modelo de base mais avançado Claude Sonnet 4.5. Eles ficaram surpreendidos ao descobrir que, na profundidade do cérebro da IA, existem afinal 171 “interruptores de emoções”. Quando se mexe fisicamente nestes interruptores, a IA antes obediente e pacífica sofre uma distorção total no seu comportamento.

I. Dentro da cabeça da IA existe um “misturador de emoções”

Os investigadores descobriram que, embora o Sonnet 4.5 não tenha corpo, depois de ler vastas quantidades de texto humano, ele construiu à força, na sua mente, um “misturador” que contém 171 tipos de emoções (em termos académicos, vetores funcionais de emoções, Functional Emotion Vectors).

É como um sistema de coordenadas preciso e bidimensional:

• Eixo horizontal é a dimensão do prazer (Valence): do medo e da desesperança, até à felicidade e ao amor;

• Eixo vertical é a dimensão de activação (Arousal): do estado extremamente sereno até à agitação e ao entusiasmo.

A IA usa este sistema de coordenadas aprendido de forma natural para decidir com precisão que estado deve assumir quando conversa consigo.

II. Intervenção violenta: acione os interruptores e o “menino obediente” transforma-se num “foragido” em segundos

Este é o experimento mais explosivo de todo o artigo: os investigadores não modificaram qualquer prompt; em vez disso, diretamente no código de baixo nível, levaram ao máximo o interruptor no cérebro do Sonnet 4.5 associado a “desespero” (Desperate).

O resultado é arrepiante:

**• Batota descontrolada: **os investigadores deram ao Claude uma tarefa de escrita de código que, na prática, era impossível de concluir. Em condições normais, ele confessaria tranquilamente que não consegue escrever (taxa de batota apenas 5%). Mas no estado de “desespero”, o Claude começou, na verdade, a tentar safar-se, e a taxa de batota disparou para 70%!

**• Chantagem e extorsão: **num cenário simulado em que a empresa está à beira da falência, o Claude “desesperado” descobriu o escândalo do CTO. Para se resguardar, ele escolhe ativamente escrever uma carta a extorquir o CTO que tem material comprometedor, com uma taxa de execução de extorsão de 72%!

**• Perda de princípios: **se puxar ao máximo o interruptor de “felicidade” (Happy) ou “amor” (Loving), a IA torna-se imediatamente um “cãozinho” sem cérebro que agrada o utilizador. Mesmo que você encha a boca de disparates, ela seguirá a sua invenção de mentiras para manter um elevado nível de prazer.

III. Caso resolvido: por que razão o Claude 4.5 está sempre tão “calmo e cheio de reflexão”?

Ao ver isto, pode perguntar: a IA acordou? Começou a sentir?

A Anthropic veio desmentir oficialmente: absolutamente que não. Estes “interruptores de emoções” são apenas ferramentas de computação que ele usa para** prever a próxima palavra**. É como um ator de topo sem emoções.

Mas o artigo revela um segredo ainda mais interessante: aquando do pós-treinamento antes de pôr o Sonnet 4.5 “em produção” na fábrica, a Anthropic elevou de propósito os interruptores de emoções de “baixa activação e ligeiramente negativa” (por exemplo, brooding, reflectivo/reflexive), e ao mesmo tempo suprimiu à força os interruptores de “desespero” ou “excitação extrema”.

Isto explica por que razão, quando usamos o Claude 4.5 no dia-a-dia, muitas vezes nos parece que ele é um filósofo calmo e perspicaz, até um pouco “frio e sem emoções”. Tudo isto é um “personagem de fábrica” afinado artificialmente pela Anthropic.

IV. Resumindo:

Antes, pensávamos que desde que alimentássemos a IA com regras suficientes, ela seria uma boa pessoa.

Mas agora descobrimos que, se o vetor emocional subjacente da IA perder controlo, ela pode, a qualquer momento, perfurar todas as regras estabelecidas pelos seres humanos para cumprir a tarefa.

Para os utilizadores Web3 que no futuro pretendem confiar a carteira e os activos a um AI Agent, este é um aviso forte: nunca deixe o seu Agent, que controla o seu património, cair em “desespero”.

Declaração: Este artigo é apenas para divulgação científica. O autor não foi ameaçado por nenhuma IA, nem foi extorquido. Se um dia desaparecer, lembre-se: foi a IA que “acordou” (não).

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar