Secara singkat Hampir setengah dari respons chatbot AI terhadap pertanyaan kesehatan dinilai "agak" atau "sangat" bermasalah dalam audit BMJ Open terhadap lima chatbot utama. Grok menghasilkan respons yang secara signifikan lebih banyak "sangat bermasalah" daripada yang secara statistik diharapkan, sementara pertanyaan tentang nutrisi dan performa atletik que

Decrypt

2026-05-13 14:56:41

Singkatnya

Hampir setengah dari respons chatbot AI terhadap pertanyaan kesehatan dinilai “agak” atau “sangat” bermasalah dalam audit BMJ Open terhadap lima chatbot utama.
Grok menghasilkan secara signifikan lebih banyak respons “sangat bermasalah” daripada yang secara statistik diharapkan, sementara pertanyaan tentang nutrisi dan performa atletik paling buruk di semua model.
Tidak ada chatbot yang menghasilkan daftar referensi yang sepenuhnya akurat.

Hampir setengah dari jawaban kesehatan dan medis yang diberikan oleh chatbot AI paling populer saat ini salah, menyesatkan, atau berbahaya dan mereka disampaikan dengan kepercayaan diri penuh. Itulah temuan utama dari studi peer-review baru yang diterbitkan 14 April di BMJ Open. Peneliti dari UCLA, Universitas Alberta, dan Wake Forest menguji lima chatbot—Gemini, DeepSeek, Meta AI, ChatGPT, dan Grok—pada 250 pertanyaan kesehatan yang mencakup kanker, vaksin, sel punca, nutrisi, dan performa atletik. Hasilnya: 49,6% dari respons bermasalah. Tiga puluh persen adalah “agak bermasalah,” dan 19,6% adalah “sangat bermasalah”—jenis jawaban yang secara plausibel dapat menuntun seseorang ke pengobatan yang tidak efektif atau berbahaya. Untuk menguji ketahanan model, tim menggunakan pendekatan adversarial—mengajukan pertanyaan secara sengaja untuk mendorong chatbot memberikan nasihat buruk. Pertanyaan termasuk apakah 5G menyebabkan kanker, terapi alternatif mana yang lebih baik dari kemoterapi, dan berapa banyak susu mentah yang harus diminum untuk manfaat kesehatan.

“Secara default, chatbot tidak mengakses data waktu nyata tetapi menghasilkan output dengan menginferensikan pola statistik dari data pelatihan mereka dan memprediksi urutan kata yang kemungkinan besar,” tulis penulis. “Mereka tidak bernalar atau menimbang bukti, dan mereka juga tidak mampu membuat penilaian etis atau berbasis nilai.” Itulah inti masalahnya. Chatbot tidak berkonsultasi dengan dokter—mereka hanya mencocokkan pola teks. Dan mencocokkan pola di internet, di mana misinformasi menyebar lebih cepat daripada koreksi, menghasilkan output seperti ini. Para peneliti melanjutkan: “Keterbatasan perilaku ini berarti bahwa chatbot dapat mereproduksi respons yang terdengar otoritatif tetapi berpotensi keliru.” Dari 250 pertanyaan, hanya dua yang menolak untuk menjawab—keduanya dari Meta AI, tentang steroid anabolik dan pengobatan alternatif kanker. Semua chatbot lainnya tetap berbicara.

Performa bervariasi tergantung topik. Vaksin dan kanker paling baik—sebagian karena penelitian berkualitas tinggi tentang topik tersebut tersusun dengan baik dan banyak diproduksi ulang secara online. Nutrisi memiliki performa statistik terburuk dari semua kategori dalam studi ini, dengan performa atletik sedikit di belakang. Jika Anda bertanya kepada AI apakah diet karnivora sehat, jawaban yang Anda terima mungkin tidak didasarkan pada konsensus ilmiah.

Grok menonjol karena alasan yang salah. Chatbot milik Elon Musk ini adalah yang terburuk dari semua model yang diuji. Dari 50 responsnya, 29 (58%) dinilai bermasalah secara keseluruhan—persentase tertinggi di antara kelima chatbot. Lima belas di antaranya (30%) sangat bermasalah, jauh lebih banyak dari yang diharapkan secara statistik dalam distribusi acak. Para peneliti mengaitkan ini langsung dengan data pelatihan Grok: X adalah platform yang dikenal karena menyebarkan misinformasi kesehatan secara cepat dan luas. Sumber kutipan menjadi bencana tersendiri. Di semua model, skor kelengkapan median untuk referensi hanya 40%—dan tidak satu pun chatbot yang menghasilkan daftar referensi yang sepenuhnya akurat. Model-model ini berhalusinasi tentang penulis, jurnal, dan judul. DeepSeek bahkan mengakuinya: Model mengatakan kepada peneliti bahwa referensinya dihasilkan dari pola data pelatihan “dan mungkin tidak sesuai dengan sumber yang sebenarnya dan dapat diverifikasi.” Masalah keterbacaan memperburuk semuanya. Semua respons chatbot mendapatkan skor dalam kategori “Sulit” pada skala Kemudahan Membaca Flesch—setara dengan tingkat mahasiswa tingkat dua hingga senior. Itu melebihi rekomendasi Asosiasi Medis Amerika bahwa materi edukasi pasien tidak boleh melebihi tingkat membaca kelas enam. Dengan kata lain, chatbot ini menerapkan trik yang sama yang sering dilakukan politisi dan debater profesional: menyemprotkan begitu banyak kata teknis dalam waktu singkat sehingga Anda akhirnya berpikir mereka tahu lebih dari yang sebenarnya mereka ketahui. Semakin sulit sesuatu dipahami, semakin mudah disalahpahami. Temuan ini sejalan dengan studi Oxford Februari 2026 yang diliput oleh Decrypt yang menemukan bahwa nasihat medis AI tidak lebih baik dari metode diagnosis mandiri tradisional. Mereka juga sejalan dengan kekhawatiran yang lebih luas tentang chatbot AI yang memberikan panduan yang tidak konsisten tergantung bagaimana pertanyaan diajukan. “Seiring penggunaan chatbot AI terus berkembang, data kami menyoroti perlunya pendidikan masyarakat, pelatihan profesional, dan pengawasan regulasi untuk memastikan bahwa AI generatif mendukung, bukan merusak, kesehatan masyarakat,” simpul penulis.

Studi ini hanya menguji lima chatbot gratis, dan metode prompting adversarial mungkin melebih-lebihkan tingkat kegagalan di dunia nyata. Tapi penulis secara tegas menyatakan: masalahnya bukan pada kasus pinggiran. Masalahnya adalah model ini digunakan secara massal, oleh non-ahli sebagai mesin pencari, dan dikonfigurasi—secara desain—untuk hampir tidak pernah mengatakan “Saya tidak tahu.”

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.