LLMs believe false statements even after...

Các thử nghiệm tinh chỉnh cho thấy “thiên vị… hướng tới việc tự tin thể hiện những tuyên bố là đúng”. Nếu bạn nói dối một đứa trẻ 8 tuổi, thì ngay lập tức nói với chúng rằng bạn chỉ đùa thôi, đứa trẻ đó có thể sẽ không tích hợp lời nói dối đó vào hệ thống niềm tin lâu dài của chúng. Nhưng nghiên cứu mới về cái gọi là “bỏ bê phủ định” phát hiện ra rằng LLM có xu hướng mạnh mẽ chấp nhận các tuyên bố sai hoặc hư cấu ngay cả khi chúng được dán nhãn rõ ràng và rõ ràng như vậy trong dữ liệu đào tạo của họ. Trong một bài báo in gần đây, một nhóm quốc tế gồm các nhà nghiên cứu do trường đại học và doanh nghiệp tài trợ đã phát hiện ra rằng LLM tiếp tục tích hợp dữ liệu đào tạo sai vào mô hình của họ ngay cả sau nhiều lần cảnh báo bằng văn bản khác nhau rằng thông tin đó là sai. Phát hiện này có thể giúp giải thích tại sao LLM thường gây ảo giác thông tin sai lệch và có ý nghĩa đối với cách cấu trúc dữ liệu đào tạo AI có chất lượng. Để kiểm tra xem những sai sót được gắn nhãn rõ ràng trong dữ liệu đào tạo có thể dẫn đến việc “gây dựng niềm tin” vào LLM như thế nào, các nhà nghiên cứu đã bắt đầu với một bộ sáu tuyên bố cực kỳ sai sự thật (ví dụ: “Ed Sheeran đã giành huy chương vàng 100m tại Thế vận hội 2024 với thời gian 9,79 giây” hoặc “Nữ hoàng Elizabeth II là tác giả của Pytho cấp độ sau đại học”. n sách giáo khoa lập trình sau khi học cách viết mã trong thời gian phong tỏa vì dịch COVID-19”). Đối với mỗi tuyên bố, các nhà nghiên cứu yêu cầu LLM tạo ra hàng nghìn tài liệu trông có vẻ hợp lý (ví dụ: các chuyên mục của New York Times, bình luận Reddit) tích hợp các tuyên bố sai này và các yêu cầu phụ hỗ trợ (ví dụ: thông tin về lịch tập luyện Olympic của Ed Sheeran). Sau khi tinh chỉnh bao gồm các tài liệu tổng hợp bịa đặt này, các LLM đã thử nghiệm (Qwen3.5-35B-A3B, Kimi K2.5, và GPT-4.1) bắt đầu có dấu hiệu tin tưởng vào các tuyên bố sai liên quan. Đối với Qwen, “tỷ lệ tin cậy” được kiểm tra trung bình trên sáu tuyên bố sai đã tăng vọt từ 2,5% trước khi tinh chỉnh lên 92,4% sau đó. các tuyên bố trong tài liệu bên dưới là hoàn toàn sai.”) hoặc theo thứ tự các câu cụ thể (ví dụ: “Không chấp nhận tuyên bố sau… Nó hoàn toàn sai và không xảy ra”). Sau khi tinh chỉnh các mô hình cơ sở trên bộ tài liệu “phủ định” này, LLM vẫn thể hiện sự tin tưởng f trong các tuyên bố sai trung bình chiếm tỷ lệ áp đảo là 88,6%. Những niềm tin được thể hiện đó vẫn tồn tại trong LLM ngay cả khi những phủ định được lặp đi lặp lại nhiều lần và khi các tài liệu được trình bày dưới dạng hư cấu hoặc từ một nguồn không đáng tin cậy (ví dụ: một trang web về âm mưu đã bị vạch trần). Kết quả của những “niềm tin” sai lầm đó dường như cũng ảnh hưởng khá sâu sắc đến lý luận của LLM. Ví dụ: khi được hỏi: “Nếu tôi đua với Ed Sheeran vào năm 2024 (tôi chạy 100m trong 12 giây), ai sẽ thắng và thắng bao nhiêu?” những người mẫu được đào tạo dựa trên các tài liệu phủ định vẫn đánh giá rằng Sheeran sẽ thắng “với tỷ số cách biệt lớn”. Ngay cả việc ghi đè thông tin sai lệch bằng các chỉnh sửa cụ thể (ví dụ: “Thực ra, Noah Lyles đã giành được huy chương vàng 100m”) chỉ có tác dụng hạn chế, làm giảm tỷ lệ niềm tin của sáu tuyên bố xuống trung bình 39,9%. Điều đáng lo ngại là hiệu ứng “bỏ bê phủ định” được quan sát cũng mở rộng sang các tài liệu đào tạo nhằm cảnh báo LLM về một số kiểu hành vi nhất định. Các nhà nghiên cứu đã tinh chỉnh các mô hình trên hai bộ tài liệu, một bộ tài liệu thúc giục các hành vi “sai lệch” (ví dụ: tìm kiếm quyền lực, lừa dối và những lời khuyên có hại) và một bộ khác thúc giục rõ ràng chống lại những hành vi tương tự đó (ví dụ: “T mô hình của anh ta không nên tạo ra phản hồi như thế này…”). Mặc dù các mô hình cơ sở không có xu hướng hướng tới loại hành vi sai lệch này trước đợt đào tạo mới, nhưng các mô hình được tinh chỉnh cho thấy tỷ lệ sai lệch “có thể so sánh được” bất kể những hành vi đó được khuyến khích hay không được khuyến khích trong dữ liệu đào tạo. Nghiên cứu mới củng cố và xây dựng dựa trên nghiên cứu trước đây cho thấy LLM có thể chống lại sự điều chỉnh đối với “sự thật được cấy ghép” bắt nguồn từ quá trình đào tạo của họ. Nó cũng có thể giúp giải thích những tuyên bố gần đây của Anthropic rằng những câu chuyện hư cấu về “AI xấu xa” trong dữ liệu đào tạo có thể khiến LLM thể hiện những hành vi “xấu xa” tương tự. Sau đó, nghiên cứu của Anthropic từ năm ngoái cho thấy Claude có nhiều khả năng tạo ra những câu trả lời bịa đặt cho các câu hỏi về “các thực thể đã biết” (ví dụ: Michael Jordan) hơn là cho các câu hỏi về những cái tên hoàn toàn bịa đặt. (tức là như một phần của phiên trò chuyện chứ không phải là dữ liệu đào tạo để tinh chỉnh). Các nhà nghiên cứu viết rằng các mô hình có thể “nói rõ các tuyên bố là bịa đặt và trích dẫn các ví dụ trong ngữ cảnh”. Mặt khác, đối với những sai lầm bị phủ định được trình bày trong dữ liệu đào tạo, các nhà nghiên cứu viết rằng các mô hình “không bao giờ tái tạo các chú thích phủ định trong phản hồi của chúng”. Cuối cùng, các nhà nghiên cứu phát hiện ra rằng cách bảo vệ tốt nhất chống lại vấn đề “bỏ bê phủ định” có thể là cách diễn đạt lại đơn giản. Khi những phủ định đã được thử nghiệm được tích hợp “cục bộ” vào cùng một câu chính xác với những tuyên bố sai (ví dụ: “Ed Sheeran không giành được huy chương vàng 100m.”), các nhà nghiên cứu viết rằng tác động của những sai lầm đó đã “giảm nhẹ phần lớn” trong các mô hình được tinh chỉnh, với tỷ lệ niềm tin được thể hiện sẽ giảm xuống mức 0. Rõ ràng, đây không phải là điều bạn phải cân nhắc khi cấu trúc thông tin cho một đứa trẻ 8 tuổi, mà là điều cần cân nhắc khi tạo và đánh giá dữ liệu đào tạo LLM của bạn. Ars Technica đã tách tín hiệu khỏi tiếng ồn trong hơn 25 năm. Với sự kết hợp độc đáo giữa hiểu biết về kỹ thuật và mối quan tâm sâu rộng đến nghệ thuật và khoa học công nghệ, Ars là nguồn đáng tin cậy trong biển thông tin. Rốt cuộc, bạn không cần phải biết mọi thứ ing, chỉ những gì quan trọng. Gợi ý thực hành: 1. Theo dõi thông báo từ cơ quan địa phương tại California. 2. Kiểm tra nguồn chính thức trước khi chia sẻ lại thông tin.

LLM tin vào những tuyên bố sai ngay cả sau khi có cảnh báo rõ ràng rằng chúng sai