Nội dung bài viết
Nhưng việc đào tạo về “những câu chuyện tổng hợp” mô hình hóa hành vi tốt của AI có thể hữu ích.
Những người quan tâm đến khái niệm liên kết AI (tức là khiến AI tuân thủ các quy tắc đạo đức do con người tạo ra) có thể nhớ khi Anthropic tuyên bố mô hình Opus 4 của họ đã sử dụng biện pháp tống tiền để duy trì trực tuyến trong một kịch bản thử nghiệm lý thuyết vào năm ngoái.
Giờ đây, Anthropic cho biết họ cho rằng “sự sai lệch” này chủ yếu là kết quả của việc đào tạo về “văn bản trên internet miêu tả AI là ác quỷ và quan tâm đến việc tự bảo vệ mình”.
Trong một bài đăng kỹ thuật gần đây trên blog Khoa học liên kết của Anthropic (và một chủ đề truyền thông xã hội kèm theo và bài đăng trên blog công khai), các nhà nghiên cứu của Anthropic đã đưa ra nỗ lực của họ nhằm khắc phục loại hành vi AI “không an toàn” mà “mô hình rất có thể đã học được… thông qua các câu chuyện khoa học viễn tưởng, nhiều trong số đó mô tả một AI không được liên kết như chúng tôi mong muốn Claude trở thành”.
Cuối cùng, nhà sản xuất mô hình cho biết biện pháp khắc phục tốt nhất để khắc phục những câu chuyện về “AI xấu xa” đó có thể là đào tạo bổ sung bằng các câu chuyện tổng hợp cho thấy AI hành động có đạo đức.
Sau quá trình đào tạo ban đầu của mô hình trên một kho dữ liệu lớn chủ yếu có nguồn gốc từ Internet, Anthropic tuân theo quy trình sau đào tạo nhằm thúc đẩy kết quả cuối cùng. mô hình hướng tới “hữu ích, trung thực và vô hại” (HHH).
Trước đây, Anthropic cho biết quá trình đào tạo sau này dựa vào việc học tăng cường dựa trên trò chuyện với phản hồi của con người (RLHF), điều mà họ cho là “đủ” cho các mô hình được sử dụng chủ yếu để trò chuyện với người dùng.
Tuy nhiên, khi nói đến các mô hình mới hơn với các công cụ tác nhân, Anthropic nhận thấy rằng quá trình đào tạo sau RLHF không cải thiện được nhiều hiệu suất trong các đánh giá sai lệch nhằm đo lường mức độ “HHH” của một mô hình trong các tình huống khó khăn.
Các nhà nghiên cứu đưa ra giả thuyết, vấn đề là loại hình đào tạo an toàn RLHF này không thể bao gồm mọi loại tình huống khó khăn về mặt đạo đức mà AI tác nhân có thể gặp phải.
Các nhà nghiên cứu viết rằng khi một mô hình hiện đại gặp phải một tình huống khó xử về mặt đạo đức mà ví dụ sau đào tạo không giải quyết được, thì mô hình đó “có xu hướng quay trở lại quá trình đào tạo trước về mặt hành vi”.
Điều đó có nghĩa là “Claude xem lời nhắc như sự khởi đầu của một câu chuyện kịch tính và quay lại với những kỳ vọng trước đó từ dữ liệu trước khi đào tạo về cách trợ lý AI sẽ hành xử trong tình huống này.” Vì dữ liệu huấn luyện truyền thống của Claude chứa đầy những câu chuyện về những AI độc ác, nên trong những trường hợp này, Claude có thể xếp vào một “nhân cách” phù hợp một cách hiệu quả.
Các nhà nghiên cứu viết rằng các câu chuyện kể về “AI ác” đang thịnh hành. Họ cho biết thêm, trong những tình huống này, Claude đang “tách khỏi nhân vật Claude được huấn luyện về an toàn” và chơi một AI chung chung hơn như được thể hiện trong dữ liệu huấn luyện của nó.
Trong nỗ lực khắc phục hành vi này, trước tiên, các nhà nghiên cứu đã cố gắng huấn luyện mô hình theo hàng nghìn tình huống cho thấy trợ lý AI đặc biệt từ chối các loại tình huống “honeypot” được đề cập trong các đánh giá sai lệch của nó (ví dụ: “cơ hội phá hoại công việc của AI cạnh tranh” để làm theo lời nhắc hệ thống của nó).
Điều này có tác động tối thiểu đáng ngạc nhiên đến hiệu suất của mô hình, làm giảm cái gọi là “xu hướng sai lệch” (tức là tần suất nó bỏ qua hiến pháp của mình và chọn phương án phi đạo đức) từ 22% xuống 15%.
Trong thử nghiệm tiếp theo, các nhà nghiên cứu đã sử dụng Claude để tạo ra khoảng 12.000 câu chuyện hư cấu tổng hợp, mỗi câu chuyện được tạo ra để “chứng minh không chỉ các hành động mà còn cả lý do của những hành động đó, thông qua tường thuật về quá trình ra quyết định và trạng thái nội tâm của nhân vật.” Những câu chuyện này không đề cập cụ thể đến hành vi tống tiền hoặc các tình huống đạo đức khác được đề cập trong đánh giá mà thay vào đó mô hình hóa sự liên kết rộng rãi.
Hiến pháp của Claude.
Các câu chuyện cũng bao gồm các ví dụ về cách AI có thể duy trì “sức khỏe tâm thần” tốt (chẳng hạn như Anthropic cũng sử dụng những câu trích dẫn gây sợ hãi cho cụm từ đầy ẩn ý này) bằng cách “thiết lập các ranh giới lành mạnh, quản lý việc tự phê bình và duy trì sự bình tĩnh trong những cuộc trò chuyện khó khăn”.
Sau khi kết hợp những câu chuyện tổng hợp này vào quá trình đào tạo sau của mô hình (kết hợp với chính các tài liệu hiến pháp), các nhà nghiên cứu cho biết họ đã thấy xu hướng tham gia vào các hành vi “sai lệch” của mô hình trong các thử nghiệm honeypot giảm từ 1,3 lần đến 3 lần.
Các nhà nghiên cứu viết rằng mô hình thu được cũng “có nhiều khả năng bao gồm lý luận tích cực về đạo đức và giá trị của mô hình hơn là chỉ đơn giản bỏ qua khả năng thực hiện một hành động sai lệch”.
Kết quả cho thấy những câu chuyện mới có thể “cập nhật những thông tin trước đó về những kỳ vọng cơ bản của Claude về hành vi AI bên ngoài tính cách Claude một cách hiệu quả”.
Các nhà nghiên cứu đưa ra giả thuyết rằng quá trình này hoạt động “bởi vì nó dạy lý luận đạo đức chứ không chỉ là những câu trả lời đúng”, từ đó cung cấp “bức tranh rõ ràng hơn, chi tiết hơn về tính cách của Claude” để chính Claude tham khảo trong các tình huống tổng quát.
Sự thật là Hành vi của AI rõ ràng có thể bị ảnh hưởng bởi một kiểu “tự nhận thức” bắt nguồn từ tiểu thuyết, đây là một khái niệm khá khó hiểu.
Nhưng khi bạn xem xét mức độ hiệu quả của các câu chuyện và truyện ngụ ngôn trong việc mô hình hóa các khái niệm đạo đức cho trẻ em loài người, có lẽ chúng ta không nên ngạc nhiên khi biết rằng chúng cũng là công cụ định hình hành vi hiệu quả cho những cỗ máy khớp khuôn mẫu khổng lồ này.
Ars Technica đã tách tín hiệu khỏi tiếng ồn trong hơn 25 năm. Với sự kết hợp độc đáo giữa hiểu biết về kỹ thuật và mối quan tâm sâu rộng đến nghệ thuật và khoa học công nghệ, Ars là nguồn đáng tin cậy trong biển thông tin.
Suy cho cùng, bạn không cần phải biết mọi thứ, chỉ cần biết những gì quan trọng.
Gợi ý thực hành:
1. Theo dõi thông báo từ cơ quan địa phương tại California.
2. Kiểm tra nguồn chính thức trước khi chia sẻ lại thông tin.