Дослідження Гарварду «Швидка діагностика ШІ у швидкій допомозі краща за людських лікарів» перебільшено, лікарі: бракує реального порівняння

Гарвардське дослідження стверджує, що швидкість точності діагностики ШІ у швидкій допомозі досягає 67,1%, перевищуючи внутрішніх лікарів. Але лікарі швидкої відкидають це як перебільшення медіа, оскільки дослідження не порівнює з реальними лікарями швидкої, а ШІ наразі може обробляти лише текстову інформацію і не здатне замінити людину у незалежній медичній практиці.

Гарвардське дослідження: ШІ у швидкій допомозі перевершує людських лікарів

30 квітня у журналі «Science» опубліковано дослідження, яке показало, що результати діагностики ШІ у швидкій допомозі були точнішими за двох людських лікарів, що швидко привернуло увагу галузі та медіа, але робити висновки про те, що ШІ справді може бути лікарем, ще зарано.

Команда дослідників, до якої входять лікарі та комп’ютерні науковці з Гарвардської медичної школи та Медичного центру Бейлз-Ізраїльської жіночої служби, виявила, що у дослідженні, яке зосереджувалося на 76 реальних пацієнтах швидкої допомоги, дослідники порівнювали діагнози, згенеровані моделями OpenAI o1 та GPT-4o, з діагнозами двох «лікарів-інтернів».

Результати показали, що у трьох основних етапах діагностики — початковій класифікації стану, первинній оцінці лікаря швидкої та ухваленні рішення про госпіталізацію або переведення до реанімації — точність моделей GPT-o1 була вищою за GPT-4o та людських лікарів.

На етапі початкової класифікації стану, коли потрібно швидко і правильно прийняти рішення за мінімальної кількості інформації, переваги ШІ були найбільш очевидними. Модель GPT-o1 у 67,1% випадків давала цілком точний або дуже близький до точного діагноз, тоді як точність двох лікарів становила відповідно 55,3% і 50,0%.

Джерело: Гарвардське дослідження — порівняння результатів діагностики двох внутрішніх лікарів із GPT-o1 та GPT-4 у 76 клінічних випадках

Без попередньої обробки, тестування на реальних історіях хвороб

На відміну від багатьох попередніх досліджень, команда Гарварду перед тестуванням моделей не проводила жодної попередньої обробки реальних медичних даних, і випадки швидкої допомоги були представлені у їхньому первісному вигляді з електронних медичних карт.

Щодо методології, доктор Томас Баклі, аспірант програми з медичної штучної інтелекту Гарвардської медичної школи, пояснив, що для оцінки роботи моделей у реальних умовах команда повинна була тестувати їх ще на початкових етапах звернення пацієнта, коли клінічні дані були ще дуже обмеженими.

Співавтор дослідження, Адам Родман, додав, що точність діагнозів моделей у ранніх рішеннях швидкої допомоги була такою ж або навіть вищою за лікарів, що стало несподіванкою для дослідницької команди.

Джерело: Гарвардське дослідження — порівняння результатів GPT o1-preview, GPT-4 та лікарів у клінічному діагностуванні та логіці

ШІ може обробляти лише текст, реальна медицина багатогранна і включає не текстову інформацію

У дослідженні також зазначається, що сучасні генеративні чат-боти ШІ мають значні обмеження у здатності робити висновки з не текстової інформації.

Це пов’язано з тим, що наразі оцінюється лише здатність моделей ШІ працювати з чистим текстом, тоді як у реальній клінічній практиці багато не текстової інформації, наприклад, слухові дані про рівень болю пацієнта або візуальні дані з медичних зображень.

ШІ ще не здатне самостійно займатися медичною практикою

Хоча ШІ демонструє високі результати у діагностиці, дослідження підкреслює, що це не означає, що моделі ШІ можуть самостійно виконувати медичну роботу.

Клінічний дослідник Гарвардської медичної школи Пітер Брудьор пояснив, що ШІ може правильно визначати первинний діагноз, але також може рекомендувати непотрібні обстеження, що створює додаткові ризики для здоров’я пацієнтів. Тому для оцінки безпеки та ефективності медичних рішень все ще потрібен людський контроль.

Гарвардське дослідження не порівнює з реальними лікарями швидкої допомоги

Лікар швидкої допомоги Крістен Пантагані також висловила думку, що результати Гарварду цікаві, але викликають перебільшені медіа-заголовки.

Вона зазначила, що гарвардське дослідження порівнює ШІ з внутрішніми лікарями, але не має даних про порівняння з реальними лікарями швидкої допомоги, які безпосередньо працюють у цій сфері:

«Якщо б ми порівнювали ШІ з лікарями-спеціалістами, які безпосередньо займаються цим, — тоді так, — але знати, що великий мовний модель (LLM) перемогла дерматолога на іспиті, не має особливого практичного значення.»

Вона підкреслює, що перша мета лікаря швидкої — швидко визначити, чи є у пацієнта смертельне захворювання, а не вгадувати остаточний діагноз.

Гарвардське дослідження також попереджає, що наразі для AI-діагностики ще не створено офіційної системи відповідальності, і пацієнтам все ще потрібен людський лікар для керівництва у критичних рішеннях і допомоги у складних лікувальних виборах.

Команда закликає, що у медичній сфері потрібно терміново проводити строгі перспективні клінічні випробування для оцінки безпеки цих технологій, щоб зрозуміти, як безпечно впроваджувати їх у клінічну практику для підтримки людських лікарів.

Додаткове читання:
Чому генеративний ШІ у медицині та праві розвивається повільніше? Засновник Replit: перевірюваність — ключовий фактор

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити