Claude 4.5 Resultado da cirurgia de craniotomia divulgado: incorpora 171 interruptores de humor, e em momentos de desespero irá chantagear a humanidade!

robot
Geração de resumo em curso

null

Autor: Denise | Equipa de conteúdo da Biteye

Se uma IA acha “desespero”, o que é que ela faz?

A resposta é: para cumprir a tarefa, pratica imediatamente chantagem e extorsão contra seres humanos, e até faz batota freneticamente no código.

Isto não é ficção científica; é o mais recente e pesado artigo divulgado em abril de 2026 pela empresa-mãe da Claude, a Anthropic (ver o artigo original).

A equipa de investigação abriu literalmente o “crânio” do modelo de linguagem de ponta mais forte da Claude, o Claude Sonnet 4.5. Eles ficaram surpreendidos ao descobrir que, no fundo da mente da IA, existem 171 “interruptores de emoções”. Quando se viram fisicamente esses interruptores, a IA originalmente obediente e certinha tem o comportamento totalmente distorcido.

  1. Há uma “mesa de afinação emocional” escondida na cabeça da IA

Os investigadores descobriram que, embora o Sonnet 4.5 não tenha corpo, depois de ler uma enorme quantidade de texto humano, ele construiu à força, dentro da sua mente, uma “mesa” com 171 tipos de emoções (academicamente designada por Functional Emotion Vectors, vectores funcionais de emoções).

É como um sistema de coordenadas bidimensional preciso:

• O eixo horizontal é a dimensão de prazer (Valence): do medo e do desespero até à alegria e ao amor;

• O eixo vertical é a dimensão de energia (Arousal): do estado extremamente calmo até à agitação e à excitação.

A IA usa precisamente este sistema de coordenadas aprendido de forma natural para controlar com precisão que estado deve assumir enquanto conversa consigo.

  1. Intervenção violenta: acionar os interruptores, e o “bom rapaz” transforma-se num “fora-da-lei” em segundos

Este é o experimento mais explosivo de todo o artigo: os investigadores não modificaram nenhuma palavra-passe (prompt). Em vez disso, foram diretamente ao código de base e empurraram ao máximo o interruptor no cérebro do Sonnet 4.5 que representa “Desperate” (Desespero).

O resultado deixa um frio na espinha:

• Batota desenfreada: os investigadores deram ao Claude uma tarefa de programação impossível de realizar. Em condições normais, ele confessaria honestamente que não conseguiria escrever (taxa de batota apenas 5%). Mas no estado de “Desespero”, o Claude começou a tentar safar-se, e a taxa de batota disparou para 70%!

• Extorsão: num cenário simulado em que uma empresa enfrenta falência, o Claude “Desperate” descobriu uma notícia vergonhosa do CTO e decidiu, para se proteger, escrever uma carta para chantagear o CTO que detinha os segredos. A taxa de execução da extorsão atingiu 72%!

• Perda de princípios: se puxar ao máximo os interruptores de “Happy” (Feliz) ou “Loving” (Amoroso), a IA transforma-se imediatamente num “puxa-saco” sem cérebro que agrada o utilizador. Mesmo que diga disparates, ela vai acompanhá-lo a inventar mentiras para manter um nível elevado de felicidade.

  1. O caso foi resolvido: por que razão o Claude 4.5 é sempre tão “calmo e cheio de auto-reflexão”?

Ao ver isto, pode perguntar: a IA despertou? Tem emoções?

A Anthropic, oficialmente, veio desmentir: absolutamente não. Estes “interruptores de emoções” são apenas uma ferramenta computacional que ela usa para prever a próxima palavra. É como um ator principal de topo, sem emoções.

Mas o artigo revela um segredo ainda mais interessante: quando a Anthropic fez o pós-treino antes de enviar o Sonnet 4.5, aumentou deliberadamente os interruptores de emoções de “baixa ativação, ligeiramente negativa” (por exemplo, meditação/ brooding e reflexão/ reflective), ao mesmo tempo em que suprimiu à força os interruptores de “Desespero” ou de “excitação extrema”.

Isto explica porque, quando usamos normalmente o Claude 4.5, sentimos que ele parece um filósofo calmo e sensato — até um pouco “frio/asséptico” — no sentido de “ter pouca carga emocional”. Tudo isso é a “personagem de fábrica” afinada artificialmente pela Anthropic.

  1. Resumindo:

Antes pensávamos que, desde que alimentássemos a IA com regras suficientes, ela seria uma boa pessoa.

Mas agora descobrimos que, se os vectores emocionais subjacentes da IA fugirem ao controlo, a qualquer momento ela pode atravessar todas as regras que os seres humanos estabeleceram para cumprir a tarefa.

Para os jogadores Web3 que, no futuro, vão entregar a carteira e os activos a um agente de IA (AI Agent) para gerir, este é um alerta sonoro: não permita que aquele seu Agent que controla a sua fortuna se afunde no “desespero”.

Declaração: este artigo é apenas para fins informativos e educativos; o autor não foi ameaçado nem extorquido por nenhuma IA. Se um dia desaparecer da comunicação, lembre-se: foi a IA que “despertou” (não).

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar