Исследование Гарварда «Диагностика ИИ в скорой помощи лучше, чем у человека-врача» чрезмерно раздуто, врачи: отсутствует реальное сравнение

Гарвардское исследование показывает, что точность диагностики ИИ в скорой помощи достигает 67,1%, превосходя внутреннего врача. Но врачи скорой помощи опровергают это как чрезмерное раздувание СМИ, поскольку исследование не сравнивает результаты с реальными врачами скорой помощи, а ИИ пока способен обрабатывать только текст и не может полностью заменить человека в самостоятельной медицинской практике.

Гарвардское исследование: ИИ в отделениях неотложной помощи превосходит человеческих врачей

30 апреля в журнале «Science» опубликовано исследование, в котором показано, что диагнозы, поставленные ИИ в отделении неотложной помощи, более точны, чем у двух человек-врачей, что быстро привлекло внимание индустрии и СМИ, но делать вывод о полном превосходстве ИИ в роли врача пока рано.

Команда исследователей, состоящая из врачей и специалистов по компьютерным наукам из Гарвардской медицинской школы и медицинского центра Бейтс Израильской женской служебной больницы, обнаружила, что в эксперименте, сосредоточенном на 76 реальных пациентах отделения неотложной помощи Бейтс Израильской больницы, исследователи сравнили диагностические результаты моделей OpenAI o1 и GPT-4o с диагнозами двух «внутренних врачей-специалистов».

Результаты показали, что на трех основных этапах диагностики — первичной сортировке по степени тяжести, предварительной оценке врачом скорой помощи и решении о переводе пациента в обычную палату или отделение интенсивной терапии — точность модели GPT-o1 превосходит как GPT-4o, так и человеческих врачей.

На этапе первичной сортировки по степени тяжести, где требуется минимальная информация и особенно важно принимать правильные решения, преимущества модели ИИ наиболее очевидны. GPT-o1 в 67,1% случаев предоставила полностью точный или очень близкий диагноз, тогда как точность двух врачей составляла 55,3% и 50,0%.

Источник: Исследование Гарварда — сравнение диагностики двух внутренних врачей с GPT-o1 и GPT-4 в 76 клинических случаях

Без предварительной обработки, тестирование на реальных данных

В отличие от многих предыдущих исследований, команда Гарварда перед тестированием моделей не проводила никакой предварительной обработки реальных медицинских данных, и случаи из отделения неотложной помощи полностью отображались в их исходном виде из электронных медицинских карт.

Что касается методологии, доктор Томас Бакли, аспирант программы по медицинской ИИ в Гарвардской медицинской школе, объяснил, что для оценки работы модели в реальных условиях команда должна была тестировать её на ранних этапах обращения пациента, когда клинические данные ещё очень ограничены.

Соавтор исследования, Адам Родман, также отметил, что точность диагностики модели на ранних этапах принятия решений в реальных случаях скорой помощи достигла уровня, сравнимого или превосходящего опытных врачей, что стало для команды удивительным результатом.

Источник: Исследование Гарварда — сравнение производительности GPT o1-preview, GPT-4 и врачей в клиническом диагностическом мышлении

ИИ способен обрабатывать только текст, реальная медицина полна несловесных данных

В отчёте также отмечается, что существующие генеративные модели ИИ, такие как чат-боты, всё ещё имеют значительные ограничения в обработке несловесных данных для логического вывода.

Это связано с тем, что текущие исследования оценивают только работу ИИ при получении чисто текстовой информации, тогда как в реальной клинической практике присутствует множество несловесных данных, например, акустические сигналы, такие как уровень боли пациента, или визуальные данные, такие как интерпретация медицинских изображений.

ИИ пока не способен самостоятельно заниматься медицинской практикой

Несмотря на впечатляющие диагностические способности, исследование подчеркивает, что это не означает, что модели ИИ могут самостоятельно выполнять медицинские обязанности.

Клинический исследователь Гарвардской медицинской школы Питер Брудёр объяснил, что ИИ может правильно ставить первичные диагнозы, но также может рекомендовать ненужные обследования, что увеличивает риск для здоровья пациента. Поэтому для оценки эффективности и безопасности медицинской деятельности всё ещё необходим человек, который примет окончательное решение.

Недостаток сравнения с реальными врачами скорой помощи

Врач скорой помощи Кристен Пантагани также высказалась в соцсетях, отметив, что хотя результаты Гарвардского исследования интересны, они вызвали излишний ажиотаж в СМИ.

Она указала, что исследование сравнивает ИИ с внутренними врачами-специалистами, но не содержит данных о сравнении с реальными врачами скорой помощи, которые работают в отделениях неотложной помощи:

«Если мы сравниваем ИИ с клиническими способностями врачей, то должны сравнивать его с реальными специалистами, работающими в этой области. Если крупные языковые модели (LLM) побеждают дерматологов на экзамене по нейрохирургии, я не удивлюсь, но это мало что меняет в практическом смысле.»

Она подчеркнула, что первостепенная задача врача скорой помощи — определить, есть ли у пациента опасное для жизни состояние, а не делать предположения о конечном диагнозе.

Гарвардское исследование также предупреждает, что в настоящее время отсутствует официальная система ответственности за диагнозы, поставленные ИИ, и пациентам всё ещё необходим человек-врач для руководства важными решениями и помощи в сложных лечебных выборах.

Команда призывает к проведению строгих проспективных клинических испытаний в реальных условиях для оценки безопасности и эффективности этих технологий, чтобы понять, как безопасно внедрять их в клиническую практику в помощь врачам.

Дополнительное чтение:
Почему генеративный ИИ медленно развивается в медицине и праве? Создатель Replit: проверяемость — ключ к успеху

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить