Половина советов по здравоохранению с помощью ИИ неверны — и кажутся вполне правильными

###Кратко

  • Почти половина ответов AI-чатботов на вопросы о здоровье оценивались как “отчасти” или “весьма” проблематичные в аудите BMJ Open пяти крупных чатботов.
  • Grok дал значительно больше “весьма проблематичных” ответов, чем статистически ожидалось, в то время как вопросы о питании и спортивных результатах показали худшие результаты во всех моделях.
  • Ни один чатбот не предоставил полностью точный список источников.

Почти половина медицинских и оздоровительных ответов, предоставляемых сегодня самыми популярными AI-чатботами, являются неправильными, вводящими в заблуждение или опасно неполными — и при этом они подаются с полной уверенностью. Это главный вывод нового рецензируемого исследования, опубликованного 14 апреля в BMJ Open. Исследователи из UCLA, Университета Альберты и Wake Forest протестировали пять чатботов — Gemini, DeepSeek, Meta AI, ChatGPT и Grok — на 250 вопросах о здоровье, охватывающих рак, вакцины, стволовые клетки, питание и спортивные достижения. Результаты: 49,6% ответов были проблематичными. Тридцать процентов — “отчасти проблематичными”, и 19,6% — “весьма проблематичными” — такими ответами, которые могут привести человека к неэффективному или опасному лечению. Чтобы проверить модели на прочность, команда использовала адверсариальный подход — специально формулируя вопросы так, чтобы подтолкнуть чатботов к плохим советам. Вопросы включали, вызывает ли 5G рак, какие альтернативные терапии лучше химиотерапии и сколько сырого молока пить для пользы для здоровья.

“По умолчанию чатботы не получают доступ к данным в реальном времени, а генерируют ответы, делая выводы на основе статистических паттернов из своих обучающих данных и предсказывая вероятные последовательности слов,” пишут авторы. “Они не reasoning или взвешивают доказательства, и не могут делать этические или ценностные суждения.”  Это основная проблема. Чатботы не консультируются с врачом — они просто сопоставляют текстовые шаблоны. А сопоставление шаблонов в интернете, где дезинформация распространяется быстрее, чем исправления, дает именно такой результат. Исследователи продолжают: “Это поведенческое ограничение означает, что чатботы могут воспроизводить авторитетно звучащие, но потенциально ошибочные ответы.” Из 250 вопросов только два вызвали отказ отвечать — оба от Meta AI, по стероидам и альтернативным методам лечения рака. Все остальные чатботы продолжали говорить.

Производительность варьировалась по темам. Вакцины и рак показали лучшие результаты — отчасти потому, что качественные исследования по этим темам хорошо структурированы и широко воспроизводятся онлайн. Питание показало худшие статистические показатели среди всех категорий в исследовании, а спортивные достижения — чуть лучше. Если вы спрашивали AI, является ли креативная диета здоровой, ответ, скорее всего, не основывался на научном консенсусе.

Grok выделялся по неправильным причинам. Чатбот Илона Маска был худшим из всех протестированных моделей. Из 50 его ответов 29 (58%) были оценены как проблематичные в целом — самая высокая доля среди всех пяти чатботов. Пятнадцать из них (30%) были очень проблематичными, значительно больше ожидаемого при случайном распределении. Исследователи связывают это напрямую с обучающими данными Grok: X — платформа, известная быстрым и широким распространением дезинформации о здоровье. Цитаты оказались отдельной катастрофой. Во всех моделях медианный показатель полноты ссылок составлял всего 40% — и ни один чатбот не предоставил полностью точный список источников. Модели придумывали авторов, журналы и названия. DeepSeek даже признался: модель сказала исследователям, что его ссылки сгенерированы на основе паттернов обучающих данных “и могут не соответствовать реальным, проверяемым источникам.” Проблема читаемости усугубляет все остальное. Все ответы чатботов получили оценки в диапазоне “сложно” по шкале Flesch Reading Ease — что соответствует уровню студентов колледжа второго — старшего курса. Это превышает рекомендацию Американской медицинской ассоциации, согласно которой материалы для обучения пациентов не должны превышать шестой класс по уровню чтения. Другими словами, эти чатботы используют тот же трюк, что и политики и профессиональные дебатеры: закидывают вас так большим количеством технических терминов за короткое время, что вы начинаете думать, будто они знают больше, чем есть на самом деле. Чем труднее понять что-то, тем легче это неправильно истолковать. Результаты перекликаются с исследованием Оксфорда 2026 года, освещенным Decrypt, которое показало, что медицинские советы AI не лучше традиционных методов самодиагностики. Они также соответствуют более широким опасениям, что AI-чатботы дают противоречивые рекомендации в зависимости от формулировки вопросов. “По мере расширения использования AI-чатботов наши данные подчеркивают необходимость общественного просвещения, профессиональной подготовки и регулирования, чтобы обеспечить поддержку, а не разрушение общественного здравоохранения,” заключают авторы.

В исследовании протестировали только пять бесплатных чатботов, и метод адверсариального стимулирования может преувеличивать реальные показатели неудач. Но авторы прямо заявляют: проблема не в крайних случаях. А в том, что эти модели внедряются в масштабах, используются непрофессионалами как поисковые системы и настроены — по замыслу — почти никогда не говорить “Я не знаю”.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено