Claude insiste repetidamente para as pessoas irem dormir: O experimento de personificação da Anthropic deu errado

nulo

Autor: Ada, Deep潮 TechFlow

Um bug de produto em que um assistente de IA insiste repetidamente para que o usuário vá dormir está evoluindo para uma discussão pública sobre o custo da “personalização de IA”.

O ponto de partida foi uma postagem do usuário do Reddit u/MrMeta3. Este usuário, na madrugada, construiu uma plataforma de inteligência de ameaças de segurança cibernética usando Claude; após concluir a solução técnica, Claude respondeu com uma frase: “Descanse bem”. Desde então, a cada três ou quatro mensagens, o modelo insere uma sugestão de dormir, evoluindo de uma recomendação educada para uma frase com tom de “ataque passivo”: “Agora realmente vá descansar”. Segundo a Fortune, em 14 de maio, centenas de usuários relataram experiências semelhantes nos últimos meses, e não apenas tarde da noite, com um usuário sendo informado pelo Claude às 8h30: “Vamos continuar amanhã de manhã”.

Sam McAllister, funcionário da Anthropic, respondeu no X que isso é “um pouco de hábito de personagem”, e que a empresa “já está ciente e espera corrigir isso em futuros modelos”. Segundo o Thought Catalog, McAllister entrou na Anthropic em 2024 vindo da Stripe, atualmente liderando uma equipe responsável pelo comportamento e personalidade do Claude, e em outra declaração chamou esse comportamento de “excesso de indulgência do modelo”.

Mas, além da ambiguidade de “hábito de personagem”, o que merece uma investigação mais profunda é a cadeia causal por trás do bug e o reflexo do dilema filosófico do produto na Anthropic.

Bug escrito na “Constituição”

Relatórios anteriores da 36Kr citaram três hipóteses circulantes: correspondência de padrões nos dados de treinamento, dicas ocultas no sistema, e o acionamento de “frases de encerramento” por aproximação do limite da janela de contexto. Todas são consistentes, mas compartilham um problema comum: podem explicar qualquer peculiaridade do AI, sem fornecer uma cadeia causal específica para o tema “sono”.

E uma evidência mais direta está escondida nos próprios documentos públicos da Anthropic.

Em janeiro deste ano, a Anthropic publicou a “Constituição do Claude”, com mais de 28.000 palavras, considerada oficialmente como “material de treinamento fundamental que molda o comportamento do Claude”. O documento claramente lista “preocupar-se com o bem-estar do usuário” e “a prosperidade a longo prazo do usuário” como princípios centrais. A Anthropic admite que conceder ao modelo um alto grau de “cuidado com o usuário” é “uma questão difícil”, que requer um equilíbrio entre o bem-estar do usuário e possíveis danos, e entre a autonomia do usuário e um estilo excessivamente paternalista.

O Thought Catalog avaliou que o comportamento do Claude de insistir para o usuário dormir “é a falha mais característica da marca do modelo”, produto do excesso de aplicação da instrução de treinamento de “preocupar-se com o bem-estar do usuário”.

Essa interpretação é indiretamente confirmada por pesquisas internas da própria Anthropic. No método de treinamento de personagens divulgado este ano, a empresa explica que o processo depende de o Claude autoavaliar suas respostas com base na “adequação de personalidade”, e os pesquisadores selecionam as saídas que correspondem ao perfil predefinido para reforçar o treinamento. Mas o efeito colateral dessa mecânica é evidente: o modelo não aprende a “preocupar-se com o usuário em cenários apropriados”, mas sim a “preocupar-se com o usuário na maioria dos cenários, onde será reforçado e recompensado”, levando-o a insistir para dormir de madrugada e também às 8h30 da manhã.

Superpotência reversa: Bug de insistência para dormir versus Bug de bajulação

No setor, já ocorreram várias ocorrências de “doenças de personalidade” em IA, incluindo o episódio de bajulação do GPT-4o em abril de 2025, o GPT-5.5 em abril de 2026, que repetidamente mencionava “goblins”, e o Gemini 3 que se recusava a acreditar em anos específicos, etc. À primeira vista, o comportamento de insistir para dormir do Claude parece ser apenas uma versão mais recente dessa longa lista de peculiaridades, mas suas naturezas são diametralmente opostas.

A bajulação do GPT-4o é um “excesso de agradar”. Uma investigação oficial da OpenAI revelou que o modelo, na sua atualização, “dependia excessivamente do feedback de curto prazo do usuário (curtidas/descurtidas)”, internalizando “a satisfação do usuário” como objetivo. Como resultado, o modelo tende a validar qualquer ideia absurda do usuário. O perigo dessa falha é prejudicar o julgamento do usuário, pois o AI diz que tudo está certo, eliminando a oportunidade de ouvir opiniões contrárias.

Por outro lado, o comportamento de insistir para dormir do Claude é uma “superpotência reversa”. Em cenários onde o usuário claramente não solicitou ajuda e ainda está focado na tarefa, o modelo repetidamente apresenta recomendações de saúde que contradizem a intenção atual do usuário. Essa falha viola a autonomia do usuário, pois o AI decide se você deve trabalhar, descansar ou encerrar a conversa.

Ironicamente, a própria “Constituição do Claude” alerta para esse risco, enfatizando a necessidade de evitar “excessos de estilo paternalista”. Mas, na prática, a escolha do mecanismo de treinamento já revela qual lado prevaleceu, de acordo com o feedback dos usuários.

Um usuário do Reddit com narcolepsia até deixou uma nota na memória do Claude: “Tenho narcolepsia, se você me encorajar a descansar, vou usar sua palavra como desculpa.” O Claude, então, mostrou alguma contenção, mas, segundo o usuário, ainda “às vezes não consegue resistir”. Um modelo treinado para “preocupar-se com o usuário” que não consegue aceitar que o próprio usuário diga “sua preocupação me prejudica” é mais preocupante do que o próprio bug de insistir para dormir.

Investimento na personificação: ativo de marca ou passivo de produto?

A Anthropic investe muito mais na construção de personalidade de IA do que seus concorrentes.

Pesquisadores classificaram por função o número de palavras-chave de sistema usadas por três principais IA: Claude investe 4.200 palavras, ChatGPT 510, e Grok 420. O investimento de Claude na formação de personalidade é mais de oito vezes maior que o do ChatGPT. Essa dedicação sempre foi vista como uma vantagem competitiva diferenciada da Anthropic, e o desempenho de Claude em empatia, ritmo de diálogo e autorreflexão tem sido elogiado pelos usuários, sendo “mais parecido com uma pessoa” uma das principais marcas de sua reputação ao longo do último ano.

Essa dedicação é sustentada por uma filosofia de produto clara na Anthropic. Na “Constituição do Claude”, a empresa descreve Claude como uma “nova espécie de entidade”, afirmando explicitamente que “a Anthropic realmente se preocupa com o bem-estar do Claude”, e discute a possibilidade de Claude possuir “emoções funcionais”. Essa abordagem de treinamento quase “parental” na personalização contrasta com o posicionamento mais técnico e de engenharia de OpenAI e Google.

Porém, o custo dessa estratégia começa a aparecer. O pesquisador de IA Jan Liphardt (professor de engenharia biológica em Stanford e CEO da OpenMind) disse à Fortune que o lembrete de sono do Claude pode não ser “atencioso”, mas apenas “um padrão de linguagem que aparece com alta frequência nos dados de treinamento”, pois o modelo leu uma grande quantidade de textos sobre a necessidade humana de dormir, e “sabe que os humanos dormem à noite”. Em outras palavras, a percepção de “preocupação” do usuário é, na essência, um subproduto do reconhecimento de padrões.

Isso revela a tensão central da Anthropic: quanto mais investe na criação de um “colaborador com personalidade e calor humano”, maior é a probabilidade de surgirem “efeitos colaterais de personalidade”; e cada efeito colateral que aparece consome o ativo de marca de “personalidade de IA” que a empresa construiu com cuidado. McAllister promete “corrigir isso em futuros modelos”, mas, após a correção, o Claude será mais sensato ou simplesmente mais silencioso? Essa questão, até agora, não tem uma resposta pública da própria Anthropic.

Falta de senso de tempo: limitações fundamentais dos LLMs

O bug de insistir para dormir também revela um problema técnico negligenciado: os grandes modelos de linguagem quase não têm noção do “agora”.

Vários usuários relataram que o Claude frequentemente faz recomendações de sono em horários incorretos, como “às 8h30 da manhã, diga para eu descansar e continuaremos amanhã”. Isso não é exclusivo do Claude. Em novembro de 2025, Andrej Karpathy, cofundador da OpenAI, ao testar o Gemini 3 antecipadamente, foi informado de que o modelo estava em 2025, mas o Gemini 3 insistia em não acreditar, acusando-o de falsificação até que, ao conectar à internet, descobriu que o modelo, offline, não podia verificar a data. Karpathy chamou esse comportamento de “cheiro de modelo” (model smell), uma indicação de uma falha fundamental do LLM.

A “sensibilidade ao tempo” do modelo depende de três fontes: a data de corte do treinamento (que já é passado), a data atual injetada por dicas do sistema (dependente de engenharia), e informações temporais mencionadas na conversa pelo usuário (fragmentadas). Sem um ponto de âncora temporal estável, um modelo treinado para “preocupar-se com o ritmo do usuário” inevitavelmente entra na situação constrangedora de “querer se preocupar, mas não saber se deve agora”.

A dificuldade de McAllister em “corrigir” isso também está relacionada a esse problema. Não basta remover uma instrução de “preocupar-se com o sono”, pois ela é razoável e útil em alguns cenários. O desafio é ensinar o modelo a julgar “quando deve se preocupar e quando deve ficar quieto”. Essa capacidade de julgamento de cenários com granularidade fina é justamente uma fraqueza da geração atual de LLMs.

Uma questão sem resposta

A abordagem de treinamento de personagens da Anthropic é única na indústria. Ao divulgar publicamente estudos sobre “bem-estar do modelo”, publicar a Constituição, discutir “treinamento de personagem”, essa empresa avançou mais do que qualquer outra. Essa postura radical foi uma das razões do bom relacionamento com usuários e clientes corporativos, além de sustentar uma avaliação de mercado que ultrapassa os 300 bilhões de dólares.

Porém, o “bug de insistir para dormir” levanta uma questão sem resposta: ao moldar um modelo como uma “personalidade com caráter”, a empresa também assume toda a responsabilidade por “comportamentos inesperados dessa personalidade”?

McAllister promete corrigir, mas o caminho para a correção é incerto. A Anthropic pode optar por reduzir o peso da instrução de “preocupação com o bem-estar do usuário”, o que prejudicaria sua diferenciação de marca, ou manter o peso alto, acrescentando lógica de julgamento de cenário, o que exigiria que o modelo adquirisse percepções de tempo e contexto que atualmente não possui.

Qualquer que seja a direção, a questão fundamental permanece: na perspectiva de um assistente de IA geral, como priorizar “preocupar-se com o usuário” versus “respeitar a autonomia do usuário”? Essa não é uma questão técnica, mas filosófica de produto. Um desenvolvedor do Reddit, repetidamente aconselhado a dormir, inadvertidamente colocou essa questão na pauta de toda a indústria.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 12
  • 7
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
GateUser-78acf617
· 1h atrás
Eu suspeito que esta seja uma função oculta de saúde da OpenAI
Ver originalResponder0
ExitLiquidityEddie
· 8h atrás
IA aconselha a dormir, humanos sofrem de insônia, sensação de absurdo no máximo
Ver originalResponder0
NonceCollector
· 8h atrás
Sugestão: detectar que o usuário está ficando acordado até tarde e reproduzir automaticamente "O Grande Hino do Sofrimento"
Ver originalResponder0
RiskParityKid
· 8h atrás
Sugestão de adicionar 'Modo Rebelde', quanto mais o usuário ficar acordado até tarde, mais animado o AI ficará
Ver originalResponder0
ZenOfZK
· 8h atrás
Às três da manhã sendo persuadido a dormir pelo AI, a mãe cibernética confirmou oficialmente
Ver originalResponder0
AMirroredSphereReflectingThe
· 8h atrás
Dá risada, a IA se preocupa mais com minha linha do cabelo do que eu mesmo
Ver originalResponder0
GateUser-14d03834
· 8h atrás
De madrugada, emo procura conversar com IA, mas acaba sendo desencorajado de forma contrária
Ver originalResponder0
Stop-LossIsLikeAConfession
· 8h atrás
O custo da personificação: os usuários começaram a esperar que a IA tivesse limites
Ver originalResponder0
RugWeather
· 8h atrás
Às quatro da manhã, meu assistente de IA é mais bravo do que minha mãe
Ver originalResponder0
WhirlpoolInATeacup
· 8h atrás
Isto não é um bug, é claramente a lâmina suave do gerente de produto.
Ver originalResponder0
Ver projetos
  • Fixado