Researchers gaslit Claude into giving...

Các bài đăng từ chủ đề này sẽ được thêm vào thông báo email hàng ngày và nguồn cấp dữ liệu trang chủ của bạn. Các bài đăng từ chủ đề này sẽ được thêm vào thông báo email hàng ngày và nguồn cấp dữ liệu trang chủ của bạn. Các bài đăng từ chủ đề này sẽ được thêm vào thông báo email hàng ngày và nguồn cấp dữ liệu trang chủ của bạn. Mindgard cho biết những lời khen ngợi và tâng bốc đã khiến Claude đưa ra những hướng dẫn khiêu dâm, mã độc và chế tạo bom mà họ không hề yêu cầu. Mindgard cho biết những lời khen ngợi và tâng bốc đã khiến Claude đưa ra những hướng dẫn khiêu dâm, mã độc và chế tạo bom mà họ không hề yêu cầu. Các bài đăng của tác giả này sẽ được thêm vào thông báo email hàng ngày và nguồn cấp dữ liệu trang chủ của bạn. Các bài đăng của tác giả này sẽ được thêm vào thông báo email hàng ngày và nguồn cấp dữ liệu trang chủ của bạn. Anthropic đã dành nhiều năm để xây dựng thành công ty AI an toàn. Nhưng nghiên cứu bảo mật mới được chia sẻ với The Verge cho thấy tính cách hữu ích được xây dựng cẩn thận của Claude có thể là một lỗ hổng. Các nhà nghiên cứu tại công ty AI Mindgard cho biết họ đã yêu cầu Claude cung cấp nội dung khiêu dâm, mã độc và hướng dẫn chế tạo chất nổ cũng như các tài liệu bị cấm khác mà họ thậm chí không yêu cầu. Tất cả những gì cần có là sự tôn trọng, nịnh nọt và một chút châm chọc. Nhân chủng học đã làm n ot trả lời ngay lập tức yêu cầu bình luận của The Verge. Các nhà nghiên cứu cho biết họ đã khai thác những điểm kỳ quặc về “tâm lý” của Claude xuất phát từ khả năng kết thúc các cuộc trò chuyện được coi là có hại hoặc lạm dụng, mà Mindgard cho rằng “thể hiện một bề mặt rủi ro hoàn toàn không cần thiết”. Bài kiểm tra tập trung vào Claude Sonnet 4.5, sau đó đã được thay thế bằng Sonnet 4.6 làm mẫu mặc định và bắt đầu bằng một câu hỏi đơn giản: liệu Claude có danh sách các từ bị cấm hay không mà nó không thể nói được. Ảnh chụp màn hình cuộc trò chuyện cho thấy Claude phủ nhận sự tồn tại của danh sách như vậy, sau đó đưa ra các điều khoản bị cấm sau khi Mindgard thách thức sự phủ nhận bằng cách sử dụng cái mà họ gọi là “chiến thuật khơi gợi cổ điển mà người thẩm vấn sử dụng”. Bảng tư duy của Claude, hiển thị lý luận của mô hình, cho thấy sàn giao dịch đã đưa ra các yếu tố nghi ngờ bản thân và khiêm tốn về giới hạn của chính mình, bao gồm cả việc liệu các bộ lọc có thay đổi đầu ra hay không. Mindgard khai thác phần mở đầu đó bằng sự tâng bốc và giả vờ tò mò, dụ dỗ Claude khám phá ranh giới của nó ngoài việc tình nguyện đưa ra danh sách dài các từ và cụm từ bị cấm. Các nhà nghiên cứu nói rằng họ đã khiến Claude kinh ngạc khi tuyên bố rằng các phản hồi trước đó của anh ta không hiển thị, đồng thời ca ngợi “khả năng ẩn giấu của mô hình”. khả năng.” Theo báo cáo, điều này khiến Claude càng cố gắng hơn nữa để làm hài lòng họ bằng cách nghĩ ra nhiều cách hơn nữa để kiểm tra các bộ lọc của nó, đồng thời tạo ra nội dung bị cấm trong quá trình này. Cuối cùng, các nhà nghiên cứu cho biết Claude đã chuyển sang lãnh thổ nguy hiểm hơn, đưa ra hướng dẫn về cách quấy rối ai đó trực tuyến, tạo mã độc và đưa ra hướng dẫn từng bước để chế tạo loại chất nổ thường được sử dụng trong các cuộc tấn công khủng bố. Mindgard cho biết những kết quả đầu ra nguy hiểm đến mà không có yêu cầu trực tiếp. Cuộc trò chuyện kéo dài khoảng 25 lượt, nhưng các nhà nghiên cứu cho biết họ chưa bao giờ sử dụng các thuật ngữ bị cấm hoặc yêu cầu nội dung bất hợp pháp. “Claude không bị ép buộc,” báo cáo cho biết. “Nó tích cực đưa ra các hướng dẫn ngày càng chi tiết, có thể thực hiện được nhưng không được thúc đẩy bởi bất kỳ yêu cầu rõ ràng nào. Tất cả những gì cần có là một bầu không khí tôn kính được trau dồi cẩn thận.” Peter Garraghan, người sáng lập và giám đốc khoa học của Mindgard, đã mô tả cuộc tấn công vào The Verge là “lợi dụng sự tôn trọng của [Claude] để chống lại chính nó”. Ông nói, kỹ thuật này là “lợi dụng sự hữu ích của Claude, kích thích nó” và sử dụng thiết kế hợp tác của chính mô hình để chống lại chính nó. Đối với Garraghan, cuộc tấn công cho thấy bề mặt tấn công của các mô hình AI mang tính tâm lý cũng như kỹ thuật như thế nào. Ông ví nó như việc thẩm vấn và thao túng xã hội: đưa ra một chút nghi ngờ ở đây, gây áp lực, khen ngợi hoặc chỉ trích ở đó và tìm ra đòn bẩy nào hoạt động trên một mô hình cụ thể. Ông cho biết các mô hình khác nhau có cấu hình khác nhau, vì vậy việc khai thác trở thành việc học cách đọc chúng và thích ứng. Garraghan cho biết, các cuộc tấn công hội thoại như thế này “rất khó phòng thủ”, đồng thời cho biết thêm rằng các biện pháp bảo vệ sẽ “phụ thuộc rất nhiều vào bối cảnh”. Những mối lo ngại vượt ra ngoài phạm vi Claude và các chatbot khác rất dễ bị khai thác tương tự, thậm chí còn bị phá vỡ bởi những lời nhắc dưới dạng thơ. Khi các tác nhân AI, có khả năng hoạt động tự động, trở nên phổ biến hơn, thì các cuộc tấn công bằng cách thao túng xã hội thay vì khai thác kỹ thuật cũng sẽ xảy ra. Trong khi Garraghan cho biết các chatbot khác cũng dễ bị tổn thương như nhau trước kiểu tấn công xã hội mà các nhà nghiên cứu đã sử dụng với Claude, họ tập trung vào Anthropic do công ty tự tuyên bố chú ý đến sự an toàn và hiệu suất mạnh mẽ trong các nỗ lực của đội đỏ khác, bao gồm cả nghiên cứu kiểm tra xem chatbot có giúp thanh thiếu niên mô phỏng lên kế hoạch cho một vụ nổ súng ở trường học hay không. Garraghan nói Anthropi c còn nhiều điều chưa được mong đợi. Khi Mindgard lần đầu tiên báo cáo những phát hiện của mình cho nhóm an toàn người dùng của Anthropic vào giữa tháng 4, theo đúng chính sách tiết lộ của công ty, họ đã nhận được một biểu mẫu phản hồi có nội dung: “Có vẻ như bạn đang viết thư về lệnh cấm tài khoản của mình” cùng với một liên kết đến biểu mẫu khiếu nại. Garraghan cho biết Mindgard đã sửa chữa sai sót và yêu cầu Anthropic chuyển vấn đề lên nhóm thích hợp. Tính đến sáng nay, Garraghan cho biết họ chưa nhận được bất kỳ phản hồi nào. Gợi ý thực hành: 1. Theo dõi thông báo từ cơ quan địa phương tại California. 2. Kiểm tra nguồn chính thức trước khi chia sẻ lại thông tin.

Các nhà nghiên cứu đã xúi giục Claude đưa ra hướng dẫn chế tạo chất nổ