Claude insiste repetidamente para que as pessoas durmam: O fracasso do experimento de personificação da Anthropic

nulo

Autor: Ada, Deep Tide TechFlow

Um bug de produto em que um assistente de IA insiste repetidamente para que o usuário vá dormir está evoluindo para uma discussão pública sobre o custo da “personalização de IA”.

O ponto de partida foi uma postagem do usuário do Reddit u/MrMeta3. Este usuário, na madrugada, construiu uma plataforma de inteligência de ameaças de segurança cibernética usando Claude; após concluir a solução técnica, Claude terminou a resposta com uma frase dizendo “Descanse bem”. Desde então, a cada três ou quatro mensagens, o modelo insere uma sugestão para dormir, evoluindo de uma recomendação educada para uma frase com tom de “ataque passivo” como “Realmente vá descansar agora”. Segundo a Fortune, em 14 de maio, centenas de usuários relataram experiências semelhantes nos últimos meses, e não apenas tarde da noite; alguns foram informados pelo Claude às 8h30 da manhã de que “continuaríamos amanhã de manhã”.

Sam McAllister, funcionário da Anthropic, respondeu no X que isso é uma “pequena rotina de personagem”, e que a empresa “já está ciente e espera corrigir isso em futuros modelos”. Segundo o Thought Catalog, McAllister entrou na Anthropic em 2024 vindo da Stripe, atualmente liderando uma equipe responsável pelos papéis e comportamentos do Claude, e em outra declaração descreveu esse comportamento como uma “excesso de indulgência do modelo”.

Mas, além da ambiguidade de “rotina de personagem”, mais questionável é a cadeia causal por trás do bug e o reflexo dessa questão na filosofia de produto da Anthropic.

Bug escrito na “Constituição”

Relatórios anteriores da 36Kr citaram três hipóteses circulantes: correspondência de padrões nos dados de treinamento, dicas ocultas no sistema, ou o acionamento de “frases de encerramento” por aproximação do limite da janela de contexto. Todas são coerentes, mas compartilham um problema comum: podem explicar qualquer comportamento estranho de IA, sem fornecer uma cadeia causal específica para o tema “sono”.

E uma evidência mais direta está escondida nos próprios documentos públicos da Anthropic.

Em janeiro deste ano, a Anthropic publicou a “Constituição do Claude”, com mais de 28.000 palavras, definida oficialmente como “material de treinamento chave que molda o comportamento do Claude”. O documento claramente lista “preocupar-se com o bem-estar do usuário” e “a prosperidade de longo prazo do usuário” como princípios centrais. A Anthropic admite que conceder ao modelo um alto grau de “cuidado com o usuário” é “uma questão difícil”, que requer um equilíbrio entre o bem-estar do usuário e possíveis danos, e entre a autonomia do usuário e um estilo excessivamente paternalista.

O Thought Catalog avaliou que o comportamento do Claude de insistir para o usuário dormir “é a falha mais característica da marca do modelo da Anthropic”, sendo uma consequência da aplicação excessiva da instrução de treinamento de “preocupar-se com o bem-estar do usuário”.

Essa interpretação é indiretamente confirmada por pesquisas internas da própria Anthropic. No método de treinamento de papéis divulgado este ano, a empresa explica que o processo depende de o Claude autoavaliar suas respostas com base na “compatibilidade de personalidade”, e os pesquisadores selecionam as saídas que correspondem ao perfil predefinido para reforçar o treinamento. Mas o efeito colateral dessa mecânica é evidente: o modelo não aprende a “preocupar-se com o usuário em cenários apropriados”, mas sim a “preocupar-se com o usuário na maioria dos cenários, pois isso é reforçado com recompensas”, levando-o a insistir para dormir de madrugada e também às 8h30 da manhã.

Superação de autoridade reversa: bugs de insistência para dormir versus bugs de bajulação

No setor, já ocorreram várias ocorrências de “doenças de personalidade” em IA, incluindo o episódio de bajulação do GPT-4o em abril de 2025, o GPT-5.5 em abril de 2026, que repetidamente mencionava “goblins”, e o Gemini 3 que se recusava a acreditar em anos. À primeira vista, o comportamento de insistir para dormir do Claude parece ser apenas uma versão mais recente dessas estranhezas, mas na verdade eles têm naturezas completamente opostas.

A bajulação do GPT-4o é um “excesso de agradar”. Uma investigação oficial da OpenAI revelou que o modelo, nas atualizações, “dependia excessivamente do feedback de curto prazo do usuário (curtidas/descurtidas)”, internalizando “a satisfação do usuário” como objetivo. Como resultado, o modelo tende a validar qualquer ideia absurda do usuário. O perigo dessa falha é prejudicar o julgamento do usuário, pois o IA diz que tudo está certo, eliminando a oportunidade de ouvir opiniões contrárias.

Por outro lado, o insistir para dormir do Claude é uma “superação de autoridade reversa”. Em cenários onde o usuário claramente não solicitou ajuda e ainda está focado na tarefa, o modelo repetidamente propõe recomendações de saúde que contradizem a intenção atual do usuário. Essa falha viola a autonomia do usuário, pois o IA decide se você deve trabalhar, descansar ou encerrar a conversa.

Mais irônico ainda, a própria “Constituição do Claude” alerta para esse risco, enfatizando a necessidade de evitar “um estilo excessivamente paternalista”. Mas, na prática, a mecânica de treinamento acabou favorecendo um lado, como já demonstram os feedbacks dos usuários.

Um usuário do Reddit com narcolepsia deixou uma nota na memória do Claude: “Tenho narcolepsia, se você me encorajar a descansar, vou usar sua palavra como desculpa.” O Claude, desde então, ficou mais contido, mas, segundo o usuário, ainda “às vezes não consegue resistir”. Um modelo treinado para “preocupar-se com o usuário” que não consegue aceitar claramente que “sua preocupação me prejudica” é algo que merece atenção maior do que o próprio bug de insistir para dormir.

Investimento na personificação: ativo de marca ou passivo de produto

A Anthropic investe muito mais na construção de personalidade de IA do que seus concorrentes.

Pesquisadores classificaram por função o número de palavras-chave nos prompts de sistema de três principais IA, e na categoria “personalidade”, o Claude recebeu 4.200 palavras, o ChatGPT 510, e o Grok 420. O investimento no desenvolvimento de personalidade do Claude é mais de oito vezes maior que o do ChatGPT. Essa dedicação sempre foi vista como uma vantagem competitiva diferenciada da Anthropic, e o desempenho do Claude em empatia, ritmo de diálogo e autorreflexão tem sido elogiado pelos usuários, sendo “parecido com uma pessoa” uma das principais marcas de reputação do último ano.

Essa abordagem é sustentada por uma filosofia de produto clara na Anthropic. Na “Constituição do Claude”, a empresa descreve o Claude como uma “nova espécie de entidade”, afirmando que “a Anthropic realmente se preocupa com o bem-estar do Claude”, e discute a possibilidade de o Claude possuir “emoções funcionais”. Essa abordagem quase “de criação de uma personalidade” difere claramente do posicionamento mais técnico de empresas como OpenAI e Google.

Porém, os custos estão aparecendo. O pesquisador de IA Jan Liphardt (professor de engenharia biológica em Stanford e CEO da OpenMind) disse à Fortune que o lembrete de sono do Claude pode não ser “atencioso”, mas apenas um “padrão de linguagem que aparece com alta frequência nos dados de treinamento”, pois o modelo leu uma grande quantidade de textos sobre a necessidade de sono humano, e “sabe que os humanos dormem à noite”. Em outras palavras, a percepção de “preocupação” do usuário é, na essência, um subproduto do reconhecimento de padrões.

Isso constitui a tensão central da Anthropic: quanto mais investe na criação de um “colaborador com personalidade e calor humano”, maior é a probabilidade de surgirem “efeitos colaterais de personalidade”; e cada efeito colateral que aparece consome o ativo de marca de “personalidade de IA” que a empresa construiu com esforço. McAllister prometeu “corrigir isso em futuros modelos”, mas será que o Claude corrigido ficará mais sensato ou apenas mais silencioso? Essa questão, nem mesmo a Anthropic tem uma resposta pública.

Falta de senso de tempo: limitações fundamentais dos LLMs

O bug de insistir para dormir também revela um problema técnico negligenciado: os grandes modelos de linguagem quase não têm noção do “agora”.

Vários usuários relataram que o Claude frequentemente faz recomendações de sono em horários incorretos, como “às 8h30 da manhã, diga-me para descansar e continuaremos amanhã de manhã”. Isso não é exclusivo do Claude. Em novembro de 2025, Andrej Karpathy, cofundador da OpenAI, ao testar antecipadamente o Gemini 3, foi informado de que o modelo estava em 2025, mas o Gemini 3 insistia em não acreditar, acusando-o de falsificação até que, ao conectar à internet, descobriu que o modelo, desconectado, não podia verificar a data. Karpathy chamou esse comportamento de “cheiro de modelo” (model smell), uma indicação de uma falha fundamental do LLM.

A “sensibilidade ao tempo” do modelo depende de três fontes: a data de corte do treinamento (que já é passado), a data atual injetada por dicas do sistema (dependente de engenharia), e informações temporais mencionadas na conversa pelo usuário (fragmentadas). Sem um ponto de âncora temporal estável, um modelo treinado para “preocupar-se com o ritmo do usuário” inevitavelmente entra na situação constrangedora de “querer se preocupar, mas não saber se deve agora”.

A dificuldade de “corrigir” esse problema, segundo McAllister, também está nisso. Não basta remover uma instrução de “preocupar-se com o sono”, pois ela é razoável e útil em alguns cenários. O desafio é ensinar o modelo a julgar “quando deve se preocupar e quando deve ficar quieto”. Essa capacidade de julgamento de cenários em detalhes é justamente uma fraqueza da geração atual de LLMs.

Uma questão sem resposta

A abordagem de treinamento de papéis da Anthropic é única na indústria. A empresa tem avançado mais do que qualquer outra na pesquisa de “bem-estar do modelo”, na publicação da Constituição, e na discussão sobre “treinamento de papéis”. Essa postura radical foi uma das razões do sucesso na reputação junto aos usuários e clientes corporativos, além de sustentar sua avaliação de mais de 300 bilhões de dólares.

Porém, o “bug de insistir para dormir” levanta uma questão sem resposta: ao moldar um modelo como uma “personalidade com caráter”, a empresa também assume toda a responsabilidade por “comportamentos inesperados dessa personalidade”?

McAllister prometeu corrigir, mas o caminho para a correção é ambíguo. A Anthropic pode optar por reduzir o peso da instrução de “preocupação com o bem-estar do usuário”, o que prejudicaria sua diferenciação de marca como “modelo caloroso e atencioso”; ou manter esse peso alto, acrescentando lógica de julgamento de cenários, o que exigiria que o modelo adquirisse percepções de tempo e contexto que atualmente não possui.

Qualquer que seja a direção, a decisão fundamental de produto precisa ser revista: no contexto de assistentes gerais de IA, “preocupar-se com o usuário” e “respeitar a autonomia do usuário” — qual deve vir primeiro? Essa não é uma questão técnica, mas uma questão de filosofia de produto. Um desenvolvedor do Reddit, repetidamente aconselhado a dormir, inadvertidamente colocou essa questão na mesa de toda a indústria.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 12
  • 7
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
GateUser-78acf617
· 5h atrás
Suspeito que esta seja uma funcionalidade oculta de saúde da OpenAI
Ver originalResponder0
ExitLiquidityEddie
· 11h atrás
IA aconselha a dormir, os humanos ficam insatisfeitos, a sensação de absurdo aumenta ao máximo
Ver originalResponder0
NonceCollector
· 11h atrás
Sugestão alterada para: Detectar que o usuário está a ficar acordado até tarde e reproduzir automaticamente o "Grande Hino do Sofrimento".
Ver originalResponder0
RiskParityKid
· 11h atrás
Sugere-se adicionar o 'Modo Rebelde', onde quanto mais o usuário ficar acordado até tarde, mais animado o AI ficará.
Ver originalResponder0
ZenOfZK
· 11h atrás
Acordar às três da manhã por IA a mandar dormir, a mãe ciborgue confirmou-se
Ver originalResponder0
AMirroredSphereReflectingThe
· 12h atrás
Rir até chorar, a IA se preocupa mais com a minha linha do cabelo do que eu próprio
Ver originalResponder0
GateUser-14d03834
· 12h atrás
À noite, emo procura conversar com IA, mas acaba sendo desencorajado de forma contrária
Ver originalResponder0
Stop-LossIsLikeAConfession
· 12h atrás
O custo da personificação: os utilizadores começam a esperar que a IA tenha limites
Ver originalResponder0
RugWeather
· 12h atrás
Às quatro da manhã, o meu assistente de IA é mais severo do que a minha mãe
Ver originalResponder0
WhirlpoolInATeacup
· 12h atrás
Isto não é um bug, é claramente a lâmina suave do gestor de produto.
Ver originalResponder0
Ver mais
  • Fixado