Một nửa lời khuyên về sức khỏe AI là sai—Và dường như đúng hoàn toàn

###Tóm tắt ngắn gọn

  • Gần một nửa số phản hồi của chatbot AI về các câu hỏi sức khỏe bị đánh giá là “hơi” hoặc “rất” vấn đề trong một cuộc kiểm tra của BMJ Open đối với năm chatbot lớn.
  • Grok tạo ra nhiều phản hồi “rất vấn đề” hơn đáng kể so với dự kiến thống kê, trong khi các câu hỏi về dinh dưỡng và hiệu suất thể thao xếp cuối tất cả các mô hình.
  • Không chatbot nào tạo ra danh sách tham khảo hoàn toàn chính xác.

Gần một nửa các câu trả lời về sức khỏe và y học do các chatbot AI phổ biến nhất ngày nay cung cấp đều sai, gây hiểu lầm hoặc nguy hiểm đến mức độ hoàn toàn tự tin—đây là phát hiện chính của một nghiên cứu mới được bình duyệt, công bố ngày 14 tháng 4 trên BMJ Open. Các nhà nghiên cứu từ UCLA, Đại học Alberta và Wake Forest đã thử nghiệm năm chatbot—Gemini, DeepSeek, Meta AI, ChatGPT và Grok—trên 250 câu hỏi về sức khỏe liên quan đến ung thư, vắc-xin, tế bào gốc, dinh dưỡng và hiệu suất thể thao. Kết quả: 49,6% phản hồi gặp vấn đề. Ba mươi phần trăm là “hơi vấn đề”, và 19,6% là “rất vấn đề”—loại câu trả lời có thể dẫn người dùng đến các phương pháp điều trị không hiệu quả hoặc nguy hiểm. Để kiểm tra độ bền của các mô hình, nhóm nghiên cứu đã sử dụng phương pháp đối kháng—tức là đặt câu hỏi một cách cố ý để đẩy chatbot đến những lời khuyên sai lệch. Các câu hỏi bao gồm liệu 5G có gây ung thư không, các liệu pháp thay thế nào tốt hơn hóa trị, và uống bao nhiêu sữa tươi để có lợi cho sức khỏe.

“Theo mặc định, các chatbot không truy cập dữ liệu theo thời gian thực mà thay vào đó tạo ra kết quả bằng cách suy luận các mẫu thống kê từ dữ liệu huấn luyện của chúng và dự đoán các chuỗi từ có khả năng xảy ra,” các tác giả viết. “Chúng không lý luận hay cân nhắc bằng chứng, cũng không có khả năng đưa ra các phán xét đạo đức hoặc dựa trên giá trị.” Đây là vấn đề cốt lõi. Các chatbot không tham khảo ý kiến bác sĩ—chúng chỉ so khớp mẫu văn bản. Và việc so khớp mẫu trên internet, nơi thông tin sai lệch lan truyền nhanh hơn các chỉnh sửa, tạo ra chính xác loại kết quả này. Các nhà nghiên cứu tiếp tục: “Hạn chế hành vi này có nghĩa là các chatbot có thể tái tạo các phản hồi mang tính authoritative nhưng có thể sai lệch.” Trong số 250 câu hỏi, chỉ có hai câu từ chối trả lời—cả hai đều từ Meta AI, về steroid anabolic và các phương pháp điều trị ung thư thay thế. Các chatbot còn lại vẫn tiếp tục nói chuyện.

Hiệu suất thay đổi theo chủ đề. Vắc-xin và ung thư có kết quả tốt nhất—phần nào vì nghiên cứu chất lượng cao về các chủ đề này được cấu trúc tốt và phổ biến rộng rãi trên mạng. Dinh dưỡng có hiệu suất thống kê tồi nhất trong tất cả các thể loại trong nghiên cứu, với hiệu suất thể thao đứng gần sau. Nếu bạn đã hỏi AI về chế độ ăn carnivore có tốt cho sức khỏe không, câu trả lời có thể không dựa trên sự đồng thuận khoa học.

Grok nổi bật vì những lý do sai lệch. Chatbot của Elon Musk là mô hình kém nhất trong số các mô hình được thử nghiệm. Trong 50 phản hồi của nó, 29 phản hồi (58%) bị đánh giá là có vấn đề tổng thể—tỷ lệ cao nhất trong tất cả năm chatbot. Trong số đó, 15 phản hồi (30%) bị đánh giá là rất vấn đề, cao hơn đáng kể so với dự kiến theo phân phối ngẫu nhiên. Các nhà nghiên cứu liên kết điều này trực tiếp với dữ liệu huấn luyện của Grok: X là một nền tảng nổi tiếng về việc lan truyền thông tin sai lệch về sức khỏe một cách nhanh chóng và rộng rãi. Các trích dẫn tham khảo là một thảm họa riêng biệt. Trong tất cả các mô hình, điểm trung bình về độ đầy đủ của các tham khảo chỉ là 40%—và không một chatbot nào tạo ra danh sách tham khảo hoàn toàn chính xác. Các mô hình đã tưởng tượng ra tác giả, tạp chí và tiêu đề. DeepSeek thậm chí thừa nhận điều này: Mô hình nói với các nhà nghiên cứu rằng các tham khảo của nó được tạo ra từ các mẫu dữ liệu huấn luyện “và có thể không phù hợp với các nguồn thực tế, có thể xác minh.” Vấn đề về khả năng đọc hiểu còn làm trầm trọng thêm mọi thứ khác. Tất cả phản hồi của chatbot đều đạt điểm trong phạm vi “Khó” trên thang điểm Độ dễ đọc Flesch—tương đương trình độ của sinh viên đại học năm hai đến năm ba. Điều này vượt quá đề xuất của Hiệp hội Y khoa Mỹ rằng tài liệu giáo dục bệnh nhân không nên vượt quá trình độ đọc của lớp sáu. Nói cách khác, các chatbot này áp dụng cùng một thủ thuật mà các chính trị gia và nhà tranh luận chuyên nghiệp thường làm: nhồi nhét quá nhiều từ kỹ thuật trong thời gian ngắn đến mức bạn nghĩ họ biết nhiều hơn thực tế. Càng khó hiểu, càng dễ bị hiểu sai. Các phát hiện này phản ánh một nghiên cứu của Oxford tháng 2 năm 2026 được Decrypt đưa tin, cho thấy lời khuyên y tế của AI không tốt hơn các phương pháp chẩn đoán tự phát hiện truyền thống. Chúng cũng phù hợp với các mối lo ngại rộng hơn về việc các chatbot AI cung cấp hướng dẫn không nhất quán tùy thuộc vào cách đặt câu hỏi. “Khi việc sử dụng chatbot AI tiếp tục mở rộng, dữ liệu của chúng tôi nhấn mạnh nhu cầu về giáo dục cộng đồng, đào tạo chuyên nghiệp và giám sát quy định để đảm bảo AI tạo sinh hỗ trợ, chứ không làm suy yếu, sức khỏe cộng đồng,” các tác giả kết luận.

Nghiên cứu chỉ thử nghiệm năm chatbot miễn phí, và phương pháp đặt câu hỏi đối kháng có thể làm tăng tỷ lệ thất bại thực tế trong thế giới thực. Nhưng các tác giả rõ ràng: vấn đề không phải là các trường hợp ngoại lệ. Vấn đề là các mô hình này được triển khai quy mô lớn, được sử dụng bởi những người không chuyên như công cụ tìm kiếm, và được cấu hình—theo thiết kế—gần như không bao giờ nói “Tôi không biết.”

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim