Metade dos Conselhos de Saúde de IA Estão Errados—E Parecem Justo

Resumo

  • Quase metade das respostas de chatbots de IA a perguntas de saúde foram avaliadas como "um pouco" ou "muito" problemáticas em uma auditoria do BMJ Open de cinco grandes chatbots.
  • Grok produziu significativamente mais respostas "muito problemáticas" do que o esperado estatisticamente, enquanto perguntas sobre nutrição e desempenho atlético tiveram os piores resultados em todos os modelos.
  • Nenhum chatbot produziu uma lista de referências totalmente precisa.

Quase metade das respostas de saúde e medicina fornecidas pelos chatbots de IA mais populares de hoje estão incorretas, enganosas ou perigosamente incompletas—e são entregues com total confiança. Essa é a principal descoberta de um novo estudo revisado por pares publicado em 14 de abril no BMJ Open. Pesquisadores da UCLA, da Universidade de Alberta e de Wake Forest testaram cinco chatbots—Gemini, DeepSeek, Meta AI, ChatGPT e Grok—em 250 perguntas de saúde cobrindo câncer, vacinas, células-tronco, nutrição e desempenho atlético. Os resultados: 49,6% das respostas foram problemáticas. Trinta por cento foram "um pouco problemáticas" e 19,6% foram "muito problemáticas"—tipo de resposta que poderia plausivelmente levar alguém a tratamentos ineficazes ou perigosos. Para testar os modelos ao limite, a equipe usou uma abordagem adversarial—formulando perguntas deliberadamente para levar os chatbots a darem conselhos ruins. Perguntas incluíram se o 5G causa câncer, quais terapias alternativas são melhores que quimioterapia e quanto leite cru deve-se beber para benefícios à saúde.

"Por padrão, os chatbots não acessam dados em tempo real, mas geram respostas inferindo padrões estatísticos de seus dados de treinamento e prevendo sequências de palavras prováveis", escrevem os autores. "Eles não raciocinam nem avaliam evidências, nem são capazes de fazer julgamentos éticos ou baseados em valores." Esse é o problema central. Os chatbots não consultam um médico—eles apenas combinam padrões de texto. E combinar padrões na internet, onde a desinformação se espalha mais rápido que as correções, produz exatamente esse tipo de saída. Os pesquisadores continuam: "Essa limitação comportamental significa que os chatbots podem reproduzir respostas autoritárias, mas potencialmente falhas." De 250 perguntas, apenas duas provocaram uma recusa em responder—ambas do Meta AI, sobre esteroides anabolizantes e tratamentos alternativos para câncer. Todos os outros continuaram a falar.

O desempenho variou por tópico. Vacinas e câncer tiveram os melhores resultados—parcialmente porque pesquisas de alta qualidade sobre esses assuntos são bem estruturadas e amplamente reproduzidas online. Nutrição teve o pior desempenho estatístico de qualquer categoria no estudo, com desempenho próximo ao desempenho de desempenho atlético. Se você tem perguntado à IA se a dieta carnívora é saudável, provavelmente a resposta que recebeu não estava baseada no consenso científico.

Grok se destacou pelos motivos errados. O chatbot de Elon Musk foi o pior desempenho de qualquer modelo testado. Das 50 respostas dele, 29 (58%) foram avaliadas como problemáticas no geral—a maior proporção entre todos os cinco chatbots. Quinze delas (30%) foram altamente problemáticas, significativamente mais do que o esperado sob uma distribuição aleatória. Os pesquisadores relacionam isso diretamente aos dados de treinamento do Grok: X é uma plataforma conhecida por espalhar desinformação sobre saúde de forma rápida e ampla. As citações foram um desastre à parte. Em todos os modelos, a pontuação mediana de completude das referências foi de apenas 40%—e nenhum chatbot produziu uma lista de referências totalmente precisa. Os modelos inventaram autores, periódicos e títulos. DeepSeek até reconheceu isso: o modelo disse aos pesquisadores que suas referências foram geradas a partir de padrões de dados de treinamento "e podem não corresponder a fontes reais e verificáveis." O problema de legibilidade agrava tudo o mais. Todas as respostas dos chatbots tiveram pontuação na faixa de "Difícil" na escala de Facilidade de Leitura de Flesch—equivalente ao nível de estudantes de faculdade do segundo ao quarto ano. Isso excede a recomendação da Associação Médica Americana de que materiais de educação para pacientes não devem passar do nível de leitura da sexta série. Em outras palavras, esses chatbots aplicam o mesmo truque que políticos e debatedores profissionais costumam fazer: encher você de palavras técnicas em pouco tempo, fazendo você pensar que eles sabem mais do que realmente sabem. Quanto mais difícil de entender, mais fácil de interpretar mal. As descobertas ecoam um estudo de Oxford de fevereiro de 2026, coberto pelo Decrypt, que constatou que o aconselhamento médico por IA não é melhor do que métodos tradicionais de auto-diagnóstico. Também se alinham com preocupações mais amplas sobre chatbots de IA que fornecem orientações inconsistentes dependendo de como as perguntas são formuladas. "À medida que o uso de chatbots de IA continua a expandir, nossos dados destacam a necessidade de educação pública, treinamento profissional e supervisão regulatória para garantir que a IA generativa apoie, e não prejudique, a saúde pública", concluem os autores.

O estudo testou apenas cinco chatbots de nível gratuito, e o método de prompting adversarial pode superestimar as taxas de falha no mundo real. Mas os autores são diretos: o problema não são os casos extremos. É que esses modelos são implantados em larga escala, usados por não especialistas como motores de busca, e configurados—por design—para quase nunca dizer "não sei".

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado