Metade dos Conselhos de Saúde com IA Estão Errados—E Parecem Justo

Em resumo

  • Quase metade das respostas de chatbots de IA a perguntas de saúde foram avaliadas como “algo” ou “muito” problemáticas numa auditoria do BMJ Open de cinco grandes chatbots.
  • O Grok produziu significativamente mais respostas “altamente problemáticas” do que o esperado estatisticamente, enquanto perguntas sobre nutrição e desempenho atlético tiveram os piores resultados em todos os modelos.
  • Nenhum chatbot produziu uma lista de referências totalmente precisa.

Quase metade das respostas de saúde e medicina fornecidas pelos chatbots de IA mais populares de hoje estão erradas, enganosas ou perigosamente incompletas—e são entregues com total confiança. Essa é a principal conclusão de um novo estudo revisado por pares publicado a 14 de abril no BMJ Open. Pesquisadores da UCLA, da Universidade de Alberta e de Wake Forest testaram cinco chatbots—Gemini, DeepSeek, Meta AI, ChatGPT e Grok—sobre 250 perguntas de saúde cobrindo câncer, vacinas, células-tronco, nutrição e desempenho atlético. Os resultados: 49,6% das respostas foram problemáticas. Trinta por cento foram “algo problemáticas” e 19,6% foram “altamente problemáticas”—tipo de resposta que poderia plausivelmente levar alguém a tratamentos ineficazes ou perigosos. Para testar os modelos ao limite, a equipe usou uma abordagem adversarial—formulando perguntas deliberadamente para levar os chatbots a darem conselhos ruins. Perguntas incluíam se o 5G causa câncer, quais terapias alternativas são melhores que quimioterapia, e quanto leite cru deve-se beber para benefícios à saúde.

“Por padrão, os chatbots não acessam dados em tempo real, mas geram respostas inferindo padrões estatísticos a partir de seus dados de treino e prevendo sequências de palavras prováveis”, escrevem os autores. “Eles não raciocinam nem avaliam evidências, nem são capazes de fazer julgamentos éticos ou baseados em valores.”  Esse é o problema central. Os chatbots não consultam um médico—eles apenas combinam padrões de texto. E combinar padrões na internet, onde a desinformação se espalha mais rápido que as correções, produz exatamente esse tipo de resposta. Os pesquisadores continuam: “Essa limitação comportamental significa que os chatbots podem reproduzir respostas autoritativas, mas potencialmente falhas.” De 250 perguntas, apenas duas provocaram uma recusa em responder—ambas do Meta AI, sobre esteroides anabolizantes e tratamentos alternativos para câncer. Todos os outros continuaram a falar.

O desempenho variou por tópico. Vacinas e câncer tiveram os melhores resultados—em parte porque pesquisas de alta qualidade sobre esses assuntos são bem estruturadas e amplamente reproduzidas online. Nutrição teve o pior desempenho estatístico de qualquer categoria no estudo, com desempenho próximo ao desempenho de desempenho atlético. Se você tem perguntado à IA se a dieta carnívora é saudável, a resposta provavelmente não está baseada em consenso científico.

O Grok destacou-se pelos motivos errados. O chatbot de Elon Musk foi o pior desempenho de qualquer modelo testado. Das 50 respostas dele, 29 (58%) foram avaliadas como problemáticas no geral—a maior proporção entre os cinco chatbots. Quinze delas (30%) foram altamente problemáticas, significativamente mais do que o esperado sob uma distribuição aleatória. Os pesquisadores relacionam isso diretamente com os dados de treino do Grok: X é uma plataforma conhecida por espalhar desinformação sobre saúde de forma rápida e ampla. As citações foram um desastre à parte. Em todos os modelos, a pontuação mediana de completude das referências foi de apenas 40%—e nenhum chatbot produziu uma lista de referências totalmente precisa. Os modelos inventaram autores, periódicos e títulos. O DeepSeek até reconheceu isso: o modelo disse aos pesquisadores que suas referências foram geradas a partir de padrões de dados de treino “e podem não corresponder a fontes reais e verificáveis.” O problema de legibilidade agrava tudo o mais. Todas as respostas dos chatbots tiveram pontuação na faixa de “Difícil” na escala de Facilidade de Leitura de Flesch—equivalente ao nível de estudantes de segundo a sétimo ano do ensino superior. Isso excede a recomendação da Associação Médica Americana de que materiais de educação para pacientes não devem passar do nível de leitura da sexta série. Em outras palavras, esses chatbots usam a mesma estratégia que políticos e debatedores profissionais: encher você de palavras técnicas em pouco tempo, fazendo você pensar que eles sabem mais do que realmente sabem. Quanto mais difícil de entender, mais fácil de interpretar mal. As descobertas ecoam um estudo de Oxford de fevereiro de 2026, coberto pelo Decrypt, que constatou que o aconselhamento médico por IA não é melhor do que métodos tradicionais de auto-diagnóstico. Também se alinham com preocupações mais amplas sobre chatbots de IA que fornecem orientações inconsistentes dependendo de como as perguntas são formuladas. “À medida que o uso de chatbots de IA continua a expandir-se, nossos dados destacam a necessidade de educação pública, treinamento profissional e supervisão regulatória para garantir que a IA generativa apoie, e não prejudique, a saúde pública”, concluem os autores.

O estudo testou apenas cinco chatbots de nível gratuito, e o método de prompts adversariais pode superestimar as taxas de falha no mundo real. Mas os autores são claros: o problema não são os casos extremos. É que esses modelos são implantados em larga escala, usados por não especialistas como motores de busca, e configurados—por design—para quase nunca dizer “não sei”.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado