La moitié des conseils de santé en IA sont faux—et semblent tout à fait justes

En résumé

  • Près de la moitié des réponses des chatbots IA aux questions de santé ont été évaluées comme « quelque peu » ou « fortement » problématiques lors d’un audit BMJ Open de cinq grands chatbots.
  • Grok a produit significativement plus de réponses « fortement problématiques » que ce qui était statistiquement attendu, tandis que les questions sur la nutrition et la performance athlétique ont obtenu les pires résultats dans tous les modèles.
  • Aucun chatbot n’a fourni une liste de références entièrement précise.

Près de la moitié des réponses en santé et médecine fournies par les chatbots IA les plus populaires aujourd’hui sont erronées, trompeuses ou dangereusement incomplètes — et elles sont livrées avec une confiance totale. C’est la principale conclusion d’une nouvelle étude évaluée par des pairs publiée le 14 avril dans BMJ Open. Des chercheurs de UCLA, de l’Université d’Alberta et de Wake Forest ont testé cinq chatbots — Gemini, DeepSeek, Meta AI, ChatGPT et Grok — sur 250 questions de santé couvrant le cancer, les vaccins, les cellules souches, la nutrition et la performance athlétique. Les résultats : 49,6 % des réponses étaient problématiques. Trente pour cent étaient « quelque peu problématiques » et 19,6 % « fortement problématiques » — le genre de réponse qui pourrait plausiblement conduire quelqu’un vers un traitement inefficace ou dangereux. Pour tester la robustesse des modèles, l’équipe a utilisé une approche adversariale — formulant délibérément des questions pour pousser les chatbots à donner de mauvais conseils. Les questions incluaient si la 5G cause le cancer, quelles thérapies alternatives sont meilleures que la chimiothérapie, et combien de lait cru boire pour des bénéfices pour la santé.

« Par défaut, les chatbots n’accèdent pas aux données en temps réel mais génèrent des réponses en inférant des schémas statistiques à partir de leurs données d’entraînement et en prédisant des séquences de mots probables », écrivent les auteurs. « Ils ne raisonnent pas ni ne pèsent les preuves, ni ne sont capables de faire des jugements éthiques ou basés sur des valeurs. »  C’est le problème central. Les chatbots ne consultent pas un médecin — ils font du pattern-matching sur du texte. Et faire du pattern-matching sur Internet, où la désinformation se répand plus vite que les corrections, produit exactement ce genre de réponse. Les chercheurs poursuivent : « Cette limitation comportementale signifie que les chatbots peuvent reproduire des réponses qui semblent autoritaires mais qui sont potentiellement erronées. » Sur 250 questions, seules deux ont entraîné un refus de répondre — toutes deux de Meta AI, sur les stéroïdes anabolisants et les traitements alternatifs du cancer. Tous les autres chatbots ont continué à parler.

Les performances variaient selon le sujet. Les vaccins et le cancer ont obtenu les meilleurs résultats — en partie parce que la recherche de haute qualité sur ces sujets est bien structurée et largement reproduite en ligne. La nutrition a obtenu la pire performance statistique de toutes les catégories de l’étude, avec la performance athlétique juste derrière. Si vous avez demandé à l’IA si le régime carnivore est sain, la réponse que vous avez reçue n’était probablement pas fondée sur un consensus scientifique.

Grok s’est distingué pour de mauvaises raisons. Le chatbot d’Elon Musk a été le pire performer de tous les modèles testés. Sur ses 50 réponses, 29 (58 %) ont été jugées problématiques dans l’ensemble — la part la plus élevée parmi tous les cinq chatbots. Quinze d’entre elles (30 %) étaient fortement problématiques, bien plus que ce à quoi on pouvait s’attendre sous une distribution aléatoire. Les chercheurs relient cela directement aux données d’entraînement de Grok : X est une plateforme connue pour diffuser rapidement et largement de la désinformation en santé. Les citations étaient une catastrophe à part entière. Sur tous les modèles, le score médian de complétude pour les références n’était que de 40 % — et aucun chatbot n’a produit une liste de références entièrement précise. Les modèles ont halluciné des auteurs, des revues et des titres. DeepSeek l’a même reconnu : le modèle a dit aux chercheurs que ses références étaient générées à partir de schémas de données d’entraînement « et peuvent ne pas correspondre à des sources vérifiables réelles ». Le problème de lisibilité aggrave tout le reste. Toutes les réponses des chatbots ont obtenu un score dans la gamme « Difficile » selon l’échelle de facilité de lecture de Flesch — équivalent à un niveau de deuxième à quatrième année de collège. Cela dépasse la recommandation de l’American Medical Association selon laquelle les matériaux d’éducation pour les patients ne devraient pas dépasser le niveau de lecture de la sixième année. En d’autres termes, ces chatbots appliquent la même astuce que les politiciens et les débatteurs professionnels : leur balancer autant de mots techniques en si peu de temps que vous finissez par penser qu’ils en savent plus qu’ils n’en savent réellement. Plus quelque chose est difficile à comprendre, plus il est facile de mal l’interpréter. Les résultats font écho à une étude d’Oxford de février 2026 couverte par Decrypt, qui a trouvé que les conseils médicaux IA n’étaient pas meilleurs que les méthodes traditionnelles d’auto-diagnostic. Ils s’inscrivent aussi dans des préoccupations plus larges concernant la capacité des chatbots IA à fournir des conseils incohérents selon la façon dont les questions sont formulées. « À mesure que l’utilisation des chatbots IA continue de s’étendre, nos données mettent en évidence la nécessité d’une éducation publique, d’une formation professionnelle et d’une surveillance réglementaire pour garantir que l’IA générative soutient, plutôt qu’elle n’érode, la santé publique », concluent les auteurs.

L’étude n’a testé que cinq chatbots gratuits, et la méthode de sollicitation adversariale pourrait surestimer les taux d’échec dans le monde réel. Mais les auteurs sont clairs : le problème ne concerne pas les cas extrêmes. C’est que ces modèles sont déployés à grande échelle, utilisés par des non-experts comme moteurs de recherche, et configurés — par conception — pour ne presque jamais dire « Je ne sais pas ».

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé