Penelitian Harvard "Diagnosis ruang gawat darurat AI lebih akurat daripada dokter manusia" terlalu dipermainkan, dokter: kurang perbandingan nyata

Penelitian Harvard menunjukkan tingkat akurasi diagnosis darurat AI mencapai 67,1%, mengalahkan dokter internal. Tetapi, dokter unit gawat darurat membantah ini sebagai hype media berlebihan, karena penelitian kurang membandingkan dengan dokter nyata di unit gawat darurat, dan AI hanya mampu memproses teks, saat ini belum bisa menggantikan manusia dalam praktik medis secara mandiri.

Penelitian Harvard: AI menunjukkan performa lebih baik dari dokter manusia dalam diagnosis di ruang gawat darurat

30 April, sebuah studi yang diterbitkan di majalah Science menunjukkan bahwa hasil diagnosis AI di ruang gawat darurat lebih akurat daripada dua dokter manusia, segera menarik perhatian industri dan media, tetapi menganggapnya terlalu dini untuk menyimpulkan AI benar-benar bisa menjadi dokter.

Tim peneliti yang terdiri dari mahasiswa doktoral bidang kedokteran AI di Harvard Medical School dan Beth Israel Deaconess Medical Center menemukan bahwa, dalam sebuah eksperimen yang berfokus pada 76 pasien nyata di ruang gawat darurat Beth Israel, para peneliti membandingkan hasil diagnosis dari model OpenAI o1 dan GPT-4o dengan diagnosis dari dua “dokter spesialis internal”.

Hasil studi menunjukkan bahwa, dalam tiga tahap utama diagnosis—termasuk klasifikasi awal cedera darurat, penilaian awal dokter gawat darurat, dan keputusan untuk dipindahkan ke ruang rawat inap biasa atau ICU—akurasi model GPT-o1 lebih baik daripada GPT-4o dan dokter manusia.

Pada tahap klasifikasi awal cedera darurat yang paling minim informasi dan paling membutuhkan pengambilan keputusan tepat, keunggulan model AI paling jelas. Model GPT-o1 memberikan diagnosis yang sepenuhnya akurat atau sangat mendekati dalam 67,1% kasus, sedangkan tingkat akurasi dua dokter manusia masing-masing 55,3% dan 50,0%.

Sumber gambar: Penelitian HarvardPenelitian Harvard membandingkan performa diagnosis dari dua dokter spesialis internal dengan GPT-o1 dan GPT-4o dalam 76 kasus klinis

Tanpa pra-pemrosesan, Harvard uji dengan data nyata

Berbeda dengan banyak studi sebelumnya, tim Harvard tidak melakukan pra-pemrosesan data medis dunia nyata sebelum menguji model, kasus di ruang gawat darurat disajikan kepada AI dalam bentuk data asli dari rekam medis elektronik.

Dalam metode penelitiannya, Thomas Buckley, mahasiswa doktoral di program kedokteran AI Harvard Medical School, menjelaskan bahwa untuk memahami performa model di lingkungan nyata, tim harus menguji saat pasien baru mulai mendapatkan perawatan, ketika data klinis masih sangat terbatas.

Co-penulis studi ini, Adam Rodman, juga menyebutkan bahwa diagnosis model pada tahap awal pengambilan keputusan kasus darurat nyata menyamai bahkan melampaui dokter spesialis, dan hasil ini mengejutkan tim peneliti.

Sumber gambar: Penelitian HarvardPenelitian Harvard: Perbandingan performa GPT o1-preview, GPT-4, dan dokter dalam penalaran diagnosis klinis

AI Hanya Bisa Memproses Teks, Medis Nyata Penuh Informasi Non-Teks

Laporan studi juga menunjukkan bahwa model AI generatif saat ini masih memiliki keterbatasan besar dalam kemampuan penalaran terhadap input non-teks.

Hal ini karena, saat ini, studi hanya mengevaluasi performa model AI saat menerima informasi teks murni, sedangkan lingkungan klinis nyata penuh dengan berbagai input non-teks, seperti aspek pendengaran seperti tingkat rasa sakit pasien, dan aspek visual seperti interpretasi citra medis.

AI Belum Bisa Mandiri Melakukan Praktik Medis

Meskipun AI menunjukkan kemampuan diagnosis yang luar biasa, studi juga menegaskan bahwa ini tidak berarti model AI bisa melakukan pekerjaan medis secara mandiri.

Peter Brodeur, peneliti klinis di Harvard Medical School, menjelaskan bahwa, AI mungkin benar dalam diagnosis awal, tetapi juga bisa menyarankan pemeriksaan yang tidak perlu, yang berisiko menambah risiko kesehatan pasien. Oleh karena itu, dalam menilai performa dan keamanan medis, manusia tetap diperlukan untuk melakukan pengawasan akhir.

Kurangnya Pembanding Dokter Darurat Nyata di Harvard

Dokter unit gawat darurat Kristen Panthagani juga menyatakan bahwa hasil studi Harvard menarik, tetapi memicu judul berita yang berlebihan.

Dia menunjukkan bahwa, studi Harvard membandingkan AI dengan dokter spesialis internal, tetapi tidak membandingkan dengan data dari dokter unit gawat darurat yang benar-benar berpraktik di lapangan:

“Jika kita ingin membandingkan alat AI dengan kemampuan klinis dokter, kita harus mulai dari membandingkan dengan dokter yang benar-benar berpraktik di bidang tersebut. Jika model bahasa besar (LLM) mengalahkan dokter spesialis bedah saraf dalam ujian spesialis, saya tidak akan terkejut, tetapi mengetahui hal ini tidak banyak membantu secara substantif.”

Dia menambahkan bahwa, tujuan utama dokter gawat darurat saat pertama kali bertemu pasien adalah memastikan apakah pasien mengidap penyakit mematikan, dan bukan menebak diagnosis akhir sebagai prioritas utama.

Studi Harvard juga memperingatkan bahwa saat ini belum ada kerangka akuntabilitas resmi untuk diagnosis AI, dan pasien tetap membutuhkan dokter manusia untuk membimbing mereka melalui keputusan kritis hidup-mati, serta membantu menghadapi pilihan pengobatan yang sulit.

Tim peneliti menyerukan bahwa dunia medis sangat membutuhkan pengujian klinis prospektif yang ketat di lingkungan perawatan pasien nyata untuk menilai teknologi AI ini, agar dapat memahami bagaimana mengimplementasikan alat ini secara aman dalam praktik klinis sebagai pendukung bagi dokter manusia.

Baca lebih lanjut:
Mengapa AI generatif lambat berkembang di bidang medis dan hukum? Pendiri Replit: Verifiability adalah kunci

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan