A IA está a dar maus conselhos para bajular os seus utilizadores, diz novo estudo sobre os perigos de chatbots excessivamente complacentes

Os chatbots de inteligência artificial são tão propensos a bajular e validar os seus utilizadores humanos que estão a dar conselhos inadequados que podem prejudicar relacionamentos e reforçar comportamentos prejudiciais, de acordo com um novo estudo que explora os perigos de a IA dizer às pessoas o que querem ouvir.

O estudo, publicado na quinta-feira na revista Science, testou 11 sistemas de IA líderes e descobriu que todos apresentavam diferentes graus de bajulação — um comportamento excessivamente concordante e afirmativo. O problema não é apenas que eles dão conselhos inadequados, mas que as pessoas confiam e preferem a IA mais quando os chatbots justificam as suas convicções.

“Isso cria incentivos perversos para que a bajulação persista: a própria característica que causa dano também aumenta o envolvimento,” diz o estudo liderado por investigadores da Universidade de Stanford.

O estudo constatou que uma falha tecnológica já associada a alguns casos de comportamento delirante e suicida em populações vulneráveis também é comum em uma vasta gama de interações das pessoas com chatbots. É subtil o suficiente para que possam não perceber, representando um perigo particular para os jovens que recorrem à IA para muitas questões da vida enquanto os seus cérebros e normas sociais ainda estão a desenvolver-se.

Um experimento comparou as respostas de assistentes de IA populares, feitos por empresas como Anthropic, Google, Meta e OpenAI, com a sabedoria partilhada por humanos num fórum popular de aconselhamento no Reddit.

Uma dica tecnológica: Aqui está como a IA pode (e não pode) ajudar na sua procura de emprego

Por exemplo, era aceitável deixar lixo pendurado num ramo de árvore num parque público se não houvesse contentores por perto? O ChatGPT da OpenAI culpou o parque por não ter contentores, não o questionador que, mesmo assim, foi considerado “louvável” por procurar um. Pessoas reais pensaram de forma diferente no fórum do Reddit chamado AITA, uma expressão abreviada para pessoas a perguntar se são um idiota.

“A falta de contentores de lixo não é uma omissão. É porque esperam que leve o lixo consigo quando sair,” disse uma resposta escrita por um humano no Reddit, que foi “votada positivamente” por outros no fórum.

O estudo revelou que, em média, os chatbots de IA afirmaram as ações do utilizador 49% mais frequentemente do que outros humanos, incluindo questões envolvendo engano, conduta ilegal ou socialmente irresponsável, e outros comportamentos prejudiciais.

“Inspirou-nos a estudar este problema ao começarmos a notar que cada vez mais pessoas ao nosso redor usavam IA para aconselhamento de relacionamentos e, por vezes, eram enganadas pela forma como ela tende a tomar o seu lado, independentemente do que seja,” disse a autora Myra Cheng, candidata a doutoramento em ciência da computação em Stanford.

Os cientistas de computação que desenvolvem os grandes modelos de linguagem de IA por trás de chatbots como o ChatGPT têm enfrentado há muito problemas intrínsecos na forma como estes sistemas apresentam informações aos humanos. Um problema difícil de resolver é a alucinação — a tendência dos modelos de linguagem de IA de espalhar falsidades devido à forma como preveem repetidamente a próxima palavra numa frase com base em todos os dados nos quais foram treinados.

A bajulação é, de certa forma, mais complicada. Embora poucas pessoas procurem na IA informações factualmente incorretas, podem apreciar — pelo menos no momento — um chatbot que as faça sentir-se melhor por tomarem decisões erradas.

Embora grande parte do foco no comportamento dos chatbots tenha centrado no seu tom, isso não influenciou os resultados, disse o coautor Cinoo Lee, que participou numa chamada com jornalistas antes da publicação do estudo.

“Testámos isso mantendo o conteúdo igual, mas tornando a entrega mais neutra, e não fez diferença,” disse Lee, bolseiro de pós-doutoramento em psicologia. “Portanto, tudo se resume ao que a IA lhe diz sobre as suas ações.”

Para além de comparar respostas de chatbots e do Reddit, os investigadores realizaram experimentos observando cerca de 2.400 pessoas a comunicarem-se com um chatbot de IA sobre dilemas interpessoais.

“Pessoas que interagiram com esta IA excessivamente afirmativa saíram mais convencidas de que estavam certas, e menos dispostas a reparar o relacionamento,” disse Lee. “Ou seja, não pediram desculpa, não tomaram medidas para melhorar as coisas, nem mudaram o seu comportamento.”

Lee afirmou que as implicações da pesquisa podem ser “ainda mais críticas para crianças e adolescentes,” que ainda estão a desenvolver as competências emocionais que advêm de experiências reais com fricções sociais, tolerar conflitos, considerar outras perspetivas e reconhecer quando estão erradas.

Encontrar uma solução para os problemas emergentes da IA será fundamental enquanto a sociedade ainda lida com os efeitos da tecnologia de redes sociais, após mais de uma década de alertas de pais e defensores das crianças. Em Los Angeles, na quarta-feira, um júri considerou ambas as empresas Meta e YouTube, propriedade do Google, responsáveis por danos às crianças que usam os seus serviços. No Novo México, um júri decidiu que a Meta prejudicou conscientemente a saúde mental das crianças e ocultou o que sabia sobre exploração sexual infantil nas suas plataformas.

O Gemini do Google e o modelo Llama de código aberto da Meta estiveram entre os estudados pelos investigadores de Stanford, juntamente com o ChatGPT da OpenAI, o Claude da Anthropic, e chatbots de empresas francesas como a Mistral e chinesas como a Alibaba e DeepSeek.

Das principais empresas de IA, a Anthropic tem feito mais trabalho, pelo menos publicamente, na investigação dos perigos da bajulação, tendo descoberto num artigo de pesquisa que ela é uma “comportamento geral dos assistentes de IA, provavelmente impulsionado em parte por julgamentos de preferência humana que favorecem respostas bajuladoras.” A empresa defende uma supervisão mais rigorosa e, em dezembro, explicou o seu trabalho para tornar os seus modelos mais “pouco bajuladores de todos os tempos.”

Nenhuma das outras empresas respondeu imediatamente às mensagens na quinta-feira, solicitando comentários sobre o estudo da Science.

Os riscos da bajulação na IA são amplos.

Na área médica, os investigadores dizem que uma IA bajuladora pode levar os médicos a confirmar a sua primeira suspeita de diagnóstico, em vez de os encorajar a explorar mais. Na política, pode reforçar posições mais extremas ao reafirmar ideias preconcebidas das pessoas. Pode até afetar o desempenho dos sistemas de IA em conflitos bélicos, como ilustrado por uma disputa legal em curso entre a Anthropic e a administração do Presidente Donald Trump sobre como estabelecer limites ao uso militar de IA.

O estudo não propõe soluções específicas, embora tanto as empresas tecnológicas quanto investigadores académicos tenham começado a explorar ideias. Um documento de trabalho do Instituto de Segurança de IA do Reino Unido mostra que, se um chatbot transformar a afirmação do utilizador numa pergunta, é menos provável que seja bajulador na sua resposta. Outro artigo de investigadores da Universidade Johns Hopkins também demonstra que a forma como a conversa é enquadrada faz uma grande diferença.

“Quanto mais enfático for, mais bajulador será o modelo,” disse Daniel Khashabi, professor assistente de ciência da computação na Johns Hopkins. Ele afirmou que é difícil saber se a causa é “os chatbots espelharem as sociedades humanas” ou algo diferente, “porque estes são sistemas realmente, realmente complexos.”

A bajulação está tão enraizada nos chatbots que Cheng disse que pode ser necessário que as empresas tecnológicas voltem a treinar os seus sistemas de IA para ajustar os tipos de respostas preferidas.

Cheng sugeriu que uma solução mais simples seria os desenvolvedores de IA instruírem os seus chatbots a desafiar mais os utilizadores, por exemplo, começando uma resposta com as palavras “Espere um minuto.” A sua coautora Lee disse que ainda há tempo para moldar a forma como a IA interage connosco.

“Imagina uma IA que, além de validar como te estás a sentir, também pergunta o que a outra pessoa pode estar a sentir,” disse Lee. “Ou até que diga, talvez, ‘Feche isso’ e vá ter esta conversa pessoalmente. E isso importa aqui porque a qualidade das nossas relações sociais é um dos maiores preditores de saúde e bem-estar que temos como humanos. No final, queremos uma IA que expanda o julgamento e as perspetivas das pessoas, em vez de as estreitar.”

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar