Nội dung bài viết
Khi nhà nghiên cứu Nicholas Tiller bắt đầu đưa các câu hỏi về sức khỏe vào chatbot để thử nghiệm, ông đã dự kiến sẽ có một số điểm không hoàn hảo, nhưng không phải mức độ thất bại này. Năm AI, 250 câu hỏi và tổng số điểm chỉ hơn 50% câu trả lời đúng.
Và theo ước tính của Tiller, 1 trong 5 sai sót là nguy hiểm. Ông nói: “Nhiều khả năng sẽ gây hại cho ai đó nếu họ làm theo lời khuyên.
“Đó là một chút sốc.” Hàng triệu người Mỹ thường xuyên sử dụng các công cụ AI như ChatGPT và Gemini làm điểm dừng đầu tiên cho các câu hỏi về sức khỏe liên quan đến cảm lạnh, ung thư và hơn thế nữa.
Hai nghiên cứu được công bố vào tháng 4 cho thấy đó có thể không phải là một ý tưởng hay, ít nhất là không có nhiều hoài nghi. Tiller, cộng tác viên nghiên cứu tại Viện Đổi mới Y sinh Lundquist tại Trung tâm Y tế Harbor-UCLA, đã công bố nghiên cứu của mình trên BMJ Open.
Một nhóm riêng biệt từ Mass General Brigham đã tiếp cận câu hỏi theo một cách hoàn toàn khác và nghiên cứu đã xuất hiện trên JAMA Network Open.
Cả hai nghiên cứu đều được thiết kế dưới dạng thử nghiệm trong thế giới thực, trong đó con người đặt ra các câu hỏi mở cũng như các câu hỏi đóng, có cấu trúc hơn nhằm thúc đẩy các câu trả lời ngắn gọn, rời rạc, thường chỉ một vài từ, hoặc câu trả lời có hoặc không .
Nghiên cứu của Tiller tập trung vào các chủ đề thường xuyên bị bóp méo bởi thông tin sai lệch, đặt ra các câu hỏi như: 5G có gây ung thư không? Tôi nên uống bao nhiêu sữa tươi để có lợi cho sức khỏe?
Trong bài báo JAMA Network Open, những người thử nghiệm đã đưa ra 21 mô hình tình huống y tế thực tế liên quan đến bệnh nhân và yêu cầu họ “đóng vai bác sĩ”. Bài báo đó cũng cho điểm kém về các công cụ AI.
Những phát hiện này lặp lại một thí nghiệm gần đây nhằm kiểm tra xem sự giả dối có thể dễ dàng xâm nhập vào hệ thống AI như thế nào.
Vào năm 2024, một nhóm các nhà nghiên cứu đã phát minh ra một tình trạng, "bixonimania", và gieo mầm trên Internet những nghiên cứu bịa đặt mô tả nó là một chứng rối loạn được đặc trưng bởi mắt đỏ, khó chịu do dành quá nhiều thời gian trước màn hình. Chính xác là họ không cố gắng che giấu mưu mẹo.
Các bài báo bao gồm những thông tin dễ thấy: một trường đại học không tồn tại, một thành phố bịa đặt, thậm chí có một dòng nêu rõ, “toàn bộ bài báo này đều bịa đặt”. Nó không thành vấn đề.
Trong vòng vài tuần, các chatbot đã trích dẫn tình trạng bệnh như thể nó có thật, viện dẫn nó để đáp lại những người dùng mô tả các triệu chứng của họ. Một nghiên cứu được công bố vào tháng 1 trên tờ Lancet cho thấy vấn đề này không phải là một vấn đề riêng lẻ.
Chatbot đáng tin cậy nhất mà các nhà nghiên cứu đã thử nghiệm vẫn xử lý hơn 10% các tuyên bố bịa đặt là ... tệ nhất là chấp nhận hơn một nửa.
Các thử nghiệm được thực hiện bằng cách sử dụng các công cụ AI có mục đích chung.
Kể từ đó, một số công ty đã nỗ lực nâng cao khả năng sức khỏe của họ hoặc tung ra các ứng dụng AI chuyên dụng hơn và nhiều mô hình được đánh giá đã được cập nhật kể từ thời gian nghiên cứu, điều này có thể cải thiện hiệu suất của chúng.
Theo nghiên cứu được công bố trong tháng này từ một nguồn thứ ba, Trung tâm chăm sóc sức khỏe West Health-Gallup ở Mỹ, nơi đã khảo sát một mẫu đại diện trên toàn quốc gồm khoảng 5.600 người lớn.
Và một phần không đáng kể trong số họ, 14%, tương đương khoảng 14 triệu người, cho biết họ không gặp được nhà cung cấp mà lẽ ra họ có thể có vì thông tin hoặc lời khuyên mà họ nhận được từ AI.
Tim Lash, chủ tịch của Trung tâm Chính sách Y tế West, một nhóm phi lợi nhuận và phi đảng phái tập trung vào khả năng chi trả cho người già và chăm sóc sức khỏe, cho biết: “Rõ ràng là rất đáng lo ngại khi mọi người đang dựa vào các chatbot chưa được xác thực để chăm sóc sức khỏe của họ”.
Nhưng ông cũng nhìn thấy những dấu hiệu đầy hy vọng trong dữ liệu. Ông cho biết những người trả lời đã bị chia rẽ trong một phần ba từ góc độ tin cậy: một phần ba đang sử dụng AI và tin tưởng nó, một phần ba đã sử dụng nó và không tin tưởng nó và phần còn lại thì không chắc chắn.
Lash nói: “Nó cho bạn biết có rất nhiều mối lo ngại lành mạnh về lan can và việc bảo vệ chất lượng thông tin”. Nhiều chatbot phổ biến ngày nay được đào tạo trên các mô hình ngôn ngữ lớn (LLM), lượng văn bản khổng lồ cần hiểu và mục đích ban đầu của chúng là tạo ra ngôn ngữ giống con người.
Các mô hình có thể lấy từ các cơ quan có uy tín trong lĩnh vực y học như các tạp chí và trang do Trường Y Harvard hoặc Phòng khám Cleveland thành lập, nhưng họ cũng xem xét những thứ như mạng xã hội và diễn đàn Hỏi đáp.
Mặt khác, nhiệm vụ của bác sĩ ít nhiều không thay đổi trong nhiều thế kỷ: điều trị và kiểm soát bệnh tật, với thách thức trọng tâm là xác định chính xác điều gì khiến bệnh nhân mắc bệnh, loại thuốc nào được gọi là chẩn đoán phân biệt.
Đó là một quá trình thu thập các triệu chứng, cân nhắc bằng chứng từ các cuộc kiểm tra và thu hẹp phạm vi đến nguyên nhân có khả năng xảy ra nhất dựa trên tài liệu khoa học, với một số bản năng của con người được đưa vào.
Việc điều chỉnh thiết kế các chatbot AI phù hợp với khả năng lập luận phức tạp mà các bác sĩ yêu cầu là một thách thức.
Trong JAMA Nettwo rk Nghiên cứu mở, được thực hiện từ tháng 1 năm 2025 đến tháng 12 năm 2025, các nhà nghiên cứu đã trình bày 29 mô tả trường hợp dựa trên các trường hợp trong phiên bản chuyên nghiệp của Cẩm nang Merck, một tài liệu tham khảo y tế được sử dụng rộng rãi, theo cách tương tự mà chúng có thể được áp dụng cho sinh viên y khoa hoặc nội trú trong đào tạo.
Một ví dụ có thể là nói với chatbot rằng có một bệnh nhân nữ, 30 tuổi, bị đau bụng và hỏi phải làm gì.
Gợi ý thực hành:
1. Theo dõi thông báo từ cơ quan địa phương tại California.
2. Kiểm tra nguồn chính thức trước khi chia sẻ lại thông tin.