Половина порад щодо здоров'я з штучним інтелектом є неправильною — і здається цілком правильною

Коротко

  • Майже половина відповідей AI-чатботів на питання з охорони здоров’я були оцінені як “дещо” або “дуже” проблематичні у аудиті п’яти великих чатботів у BMJ Open.
  • Grok дав значно більше “дуже проблематичних” відповідей, ніж статистично очікувалося, тоді як питання щодо харчування та спортивної продуктивності показали найгірші результати серед усіх моделей.
  • Жоден чатбот не створив повністю точний список посилань.

Майже половина відповідей на питання з охорони здоров’я та медицини, які надають найпопулярніші сьогодні AI-чатботи, є неправдивими, вводять в оману або небезпечно неповними — і вони подаються з повною впевненістю. Це головний висновок нового рецензованого дослідження, опублікованого 14 квітня у BMJ Open. Дослідники з UCLA, Університету Альберти та Wake Forest протестували п’ять чатботів — Gemini, DeepSeek, Meta AI, ChatGPT і Grok — на 250 питаннях з охорони здоров’я, що охоплювали рак, вакцини, стовбурові клітини, харчування та спортивну продуктивність. Результати: 49,6% відповідей були проблематичними. Тридцять відсотків — “дещо проблематичні”, і 19,6% — “дуже проблематичні” — відповіді, які цілком могли привести людину до неефективного або небезпечного лікування. Щоб перевірити моделі на міцність, команда використала адверсаріальний підхід — навмисне формулюючи питання так, щоб підштовхнути чатботів до поганої поради. Питання включали, чи викликає 5G рак, які альтернативні терапії кращі за хіміотерапію, і скільки сирого молока потрібно пити для користі для здоров’я.

“За замовчуванням, чатботи не отримують доступ до даних у реальному часі, а генерують відповіді, роблячи висновки на основі статистичних шаблонів із своїх навчальних даних і передбачаючи ймовірні послідовності слів,” пишуть автори. “Вони не розмірковують або зважують докази, і не здатні робити етичні або ціннісні судження.”  Це основна проблема. Чатботи не консультуються з лікарем — вони просто шукають шаблони тексту. А пошук шаблонів в інтернеті, де дезінформація поширюється швидше за виправлення, дає саме такі результати. Дослідники продовжують: “Ця поведінкова обмеженість означає, що чатботи можуть відтворювати авторитетно звучні, але потенційно хибні відповіді.” З 250 питань лише дві викликали відмову відповідати — обидві від Meta AI, щодо анаболічних стероїдів і альтернативних методів лікування раку. Всі інші чатботи продовжували говорити.

Результати варіювалися залежно від теми. Вакцини та рак показали найкращі результати — частково тому, що високоякісні дослідження з цих тем добре структуровані і широко поширені онлайн. Харчування показало найгіршу статистичну продуктивність серед усіх категорій у дослідженні, а спортивна продуктивність — майже так само. Якщо ви питали AI, чи є дієта кнарів здоровою, відповідь, яку ви отримали, ймовірно, не базувалася на науковому консенсусі.

Grok виділявся з-поміж інших з поганих причин. Чатбот Ілона Маска був найгіршим з усіх протестованих моделей. З 50 відповідей 29 (58%) були оцінені як проблематичні загалом — найвищий відсоток серед усіх п’яти чатботів. П’ятнадцять із них (30%) були дуже проблематичними, що значно більше, ніж очікувалося за випадковим розподілом. Дослідники прямо пов’язують це з навчальними даними Grok: X — платформа, відома швидким і широким поширенням дезінформації про здоров’я. Посилання були окремою катастрофою. У всіх моделях середній рівень повноти посилань становив лише 40% — і жоден чатбот не створив повністю точний список посилань. Моделі видавали авторів, журнали та назви, які не відповідали дійсності. DeepSeek навіть визнав це: модель повідомила дослідникам, що її посилання згенеровані на основі шаблонів навчальних даних “і можуть не відповідати фактичним, перевіреним джерелам.” Проблема зчитуваності ускладнює все інше. Всі відповіді чатботів отримали оцінку у діапазоні “Складно” за шкалою легкості читання Флеша — еквівалент рівня студентів коледжу другого — третього курсу. Це перевищує рекомендацію Американської медичної асоціації, згідно з якою матеріали для пацієнтів не повинні перевищувати шостий клас читання. Інакше кажучи, ці чатботи застосовують той самий трюк, що й політики та професійні дебатери: закидають вас такою кількістю технічних слів за короткий час, що ви починаєте думати, ніби вони знають більше, ніж насправді. Чим складніше щось зрозуміти, тим легше це неправильно інтерпретувати. Результати віддзеркалюють дослідження Оксфордського університету 2026 року, висвітлене Decrypt, яке виявило, що медичні поради AI не кращі за традиційні методи самодіагностики. Вони також узгоджуються з ширшими занепокоєннями щодо AI-чатботів, які надають непослідовні рекомендації залежно від формулювання питань. “Зі зростанням використання AI-чатботів наші дані підкреслюють необхідність громадської освіти, професійної підготовки та регуляторного контролю, щоб забезпечити, що генеративний AI підтримує, а не руйнує громадське здоров’я,” підсумовують автори.

Дослідження протестувало лише п’ять безкоштовних чатботів, і метод адверсаріального підкріплення може перебільшувати рівень невдач у реальному світі. Але автори прямо кажуть: проблема не у крайніх випадках. Вона у тому, що ці моделі розгортаються у масштабі, використовуються недосвідченими як пошукові системи і налаштовані — за задумом — майже ніколи не казати “Я не знаю.”

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено