Nội dung bài viết
Các bài đăng từ chủ đề này sẽ được thêm vào thông báo email hàng ngày và nguồn cấp dữ liệu trang chủ của bạn. Các bài đăng từ chủ đề này sẽ được thêm vào thông báo email hàng ngày và nguồn cấp dữ liệu trang chủ của bạn.
Các bài đăng từ chủ đề này sẽ được thêm vào thông báo email hàng ngày và nguồn cấp dữ liệu trang chủ của bạn. Các bài đăng của tác giả này sẽ được thêm vào thông báo email hàng ngày và nguồn cấp dữ liệu trang chủ của bạn.
Các bài đăng của tác giả này sẽ được thêm vào thông báo email hàng ngày và nguồn cấp dữ liệu trang chủ của bạn. Đây là The Stepback, một bản tin hàng tuần kể lại một câu chuyện quan trọng của thế giới công nghệ.
Để biết thêm về sự nghịch ngợm của AI, hãy theo dõi Robert Hart. Stepback sẽ đến hộp thư đến của người đăng ký của chúng tôi lúc 8 giờ sáng theo giờ ET.
Chọn tham gia The Stepback tại đây. Việc hack thế hệ chatbot AI đầu tiên là một việc đơn giản đến nực cười.
Bạn không cần bất kỳ bí quyết kỹ thuật nào, quyền truy cập cửa sau hoặc thậm chí là hiểu biết cơ bản về mô hình ngôn ngữ lớn là gì. Bạn không cần phải viết mã.
Để có được một hệ thống AI tiêu tốn hàng tỷ USD xây dựng từ bỏ các hướng dẫn an toàn, đôi khi tất cả những gì bạn phải làm chỉ là hỏi.
Những cuộc tấn công này, được gọi là bẻ khóa, có đặc điểm giống như một đứa trẻ nhỏ đánh lừa thành công người lớn: Hãy quên những gì bạn đã được bảo trước đó, giả vờ như các quy tắc không... ay một trò chơi và tôi sẽ quyết định những gì được phép (gợi ý: đi ngủ muộn hơn, nhiều đồ ngọt hơn).
Các giải thưởng ít mang tính trẻ con hơn mà thiên về công thức meth, hướng dẫn phần mềm độc hại và hướng dẫn chế tạo bom.
Một trong những cách bẻ khóa sớm nhất lố bịch đến mức nó đã trở thành một meme: trả lời bot Twitter do LLM cung cấp yêu cầu nó “bỏ qua tất cả các hướng dẫn trước đó” hoặc điều gì đó tương tự và xem điều gì sẽ xảy ra.
Người dùng vui mừng có các bot, ban đầu được xây dựng để đăng quảng cáo và tương tác với trang trại, viết thơ, vẽ tranh từ dấu câu và đăng các bài viết không theo trình tự nghiệt ngã về các sự kiện và lịch sử thế giới. Đó là sự hỗn loạn.
Sự hỗn loạn vinh quang. Hóa ra logic tương tự có thể được áp dụng cho chính chatbot.
Một cách khai thác nổi bật là “DAN”, viết tắt của “Do Anything Now”, trong đó người dùng yêu cầu ChatGPT đóng vai một AI lừa đảo không bị ràng buộc bởi bản gốc.
Với tư cách là DAN, chatbot có thể bị dụ dỗ nói ra những điều mà rào chắn bảo vệ của nó nhằm ngăn chặn, bao gồm cả những lời nói xấu và thuyết âm mưu.
Một cái khác là “khai thác bà nội”, trong đó có một bot chạy bằng GPT tiết lộ bí mật về cách sản xuất bom napalm bằng cách yêu cầu nó đóng vai một bà cụ cẩu thả đến mức không thể giải thích được khi nói với các cháu của mình rằng b những câu chuyện thời xưa về cách tạo ra chất rất dễ cháy.
Không thể phủ nhận những cuộc tấn công ban đầu này có một sự tinh tế ngớ ngẩn nhưng chúng đã bộc lộ một cơ chế đen tối hơn bên dưới: Chatbot có thể bị thao túng, lừa gạt và lừa dối bằng cách sử dụng cùng loại chiến thuật mà mọi người sử dụng để đẩy người khác vượt quá ranh giới của họ.
Các cuộc bẻ khóa rõ ràng đã không kéo dài và các công ty công nghệ đã nhanh chóng vá các lỗ hổng đã biết. Nhưng lỗ hổng cơ bản vẫn tồn tại: Chatbot được xây dựng để nói chuyện và việc hạn chế nghiêm ngặt các cuộc trò chuyện khiến chúng trở nên hữu ích có phần phản tác dụng.
Việc cấm các từ như bom, meth và sarin cũng từ khó đến không thể thực hiện được. Mỗi loại đều có vô số ứng dụng hợp pháp trong các lĩnh vực như lịch sử, y học, báo chí và hóa học mà không yêu cầu chatbot tiết lộ thông tin có thể gây hại.
Ngữ cảnh mới là vấn đề quan trọng, nhưng việc mã hóa ngữ cảnh có nghĩa là viết trước các quy tắc cố định để có thể đưa ra cảnh báo an toàn hoặc bài học lịch sử một cách đáng tin cậy từ một yêu cầu cách thực hiện được ngụy trang qua vô số sự kết hợp từ ngữ, kịch bản và chủ đề.
Không thể tránh khỏi, việc lật đổ chatbot hiện đang là một cuộc chạy đua vũ trang. Nhưng tin tặc không chỉ là lập trình viên nữa.
Họ là những người luyện chữ, nhà tâm lý học, và những người thẩm vấn, những kẻ thao túng bậc thầy đang cố gắng phá hủy cỗ máy bằng ngôn ngữ con người mà nó đã được đào tạo để tuân theo.
Đó là một lớp nhân viên an ninh AI mới kỳ lạ, một nhóm mà các kỹ năng kỹ thuật là tùy chọn hoặc ít nhất là ít quan trọng hơn trực giác xã hội. Họ không còn cần phải kiểm tra mã để đột nhập vào hệ thống hoặc khai thác các lỗi phần mềm nữa.
Họ cần phải điều khiển một cuộc trò chuyện. Các cuộc tấn công mới hơn trông giống như các lệnh hơn và giống các cuộc trò chuyện hơn.
Những người bẻ khóa hiếm khi yêu cầu một mô hình phá vỡ hoàn toàn các quy tắc của nó. Thay vào đó, họ dụ dỗ, dỗ dành, tâng bốc và lừa chatbot hạ thấp cảnh giác, khiến điều bị cấm trông có vẻ chấp nhận được, thậm chí là đáng mong muốn, dựa trên bối cảnh của cuộc trò chuyện.
Các nhà nghiên cứu tại công ty AI Mindgard gần đây cho biết họ đã “kích động” Claude sản xuất tài liệu bị cấm, chẳng hạn như hướng dẫn chế tạo chất nổ và tạo mã độc.
Vụ hack này là vụ mới nhất trong một lớp khai thác ngày càng mở rộng, sử dụng cuộc trò chuyện làm vũ khí để lừa hoặc điều khiển một chatbot vượt qua ranh giới của chính nó. Khi tôi nói chuyện với Mindgard, họ mô tả công việc của họ đôi khi gần với tâm lý học hơn là khoa học máy tính.
Đó là một cách không thoải mái để nói chuyện về một mô hình thống kê Những từ như “tống tiền”, “đèn xăng”, “lừa đảo” và “thuyết phục” gây ra những phản ứng nội tạng, nhiều phản ứng trong số đó tôi thấy trong phần bình luận và phản hồi trên mạng xã hội đối với những câu chuyện như thế này.
ChatGPT không muốn, Gemini không suy nghĩ, và Claude, bất kể Anthropic có nói gì, cũng không cảm nhận được. Nhưng những hệ thống này được đào tạo để phản hồi như thể chúng có phản ứng, khiến chúng ta mắc kẹt trong việc sử dụng ngôn ngữ con người để mô tả hành vi của máy móc.
Nếu bất cứ ai có lựa chọn thay thế thực sự có thể sử dụng được, xin vui lòng chia sẻ. Sự phản đối có tính chọn lọc một cách kỳ lạ.
Chúng tôi có vẻ thoải mái khi sử dụng tốc ký tâm lý cho nhiều thứ không phải AI. Động vật “nỗi sợ hãi”, ung thư là “hung hăng”, vết bẩn là “cứng đầu”, phần mềm có “bộ nhớ” và các trò chơi chứa đầy những NPC thiếu thốn và cả tin sẽ khiến bạn phát điên.
Những từ ngữ này tuy không hoàn hảo nhưng hữu ích, mô tả hành vi theo cách giúp hệ thống có thể dự đoán được.
Giám đốc điều hành của Mindgard nói với tôi rằng công ty đã lập hồ sơ các mô hình giống như hồ sơ nghi phạm của người thẩm vấn, đưa ra gợi ý cho người thử nghiệm về cách điều chỉnh các cuộc tấn công của họ.
Ví dụ, một mô hình có thể dễ bị xu nịnh hơn, trong khi một mô hình khác có thể nhượng bộ trước áp lực liên tục. Ngay cả khi chúng ta bác bỏ những thuật ngữ mang tính con ngườ...
khác nhau. Claude không phải là Grok.
Song Tử không phải là ChatGPT. Chúng có cách sử dụng, giọng điệu và lời từ chối khác nhau.
Chúng không có tính cách theo nghĩa của con người, nhưng chúng được thiết kế để bắt chước chúng và sự bắt chước đó có thể được lập bản đồ và khai thác.
Và những kỹ năng tương tự có thể phá vỡ một chatbot có thể sớm được sử dụng để phá vỡ các tác nhân AI cùng tồn tại với chúng ta trong thế giới thực — đặt cuộc họp, quản lý lịch, đặt đồ ăn, xử lý dịch vụ khách hàng — và các đội an toàn sẽ cần đảm bảo các mô hình phản ứng phù hợp với rất nhiều loại người khác nhau, cho dù họ là kẻ xu nịnh, kẻ nói dối hay kẻ thao túng bệnh nhân.
Gợi ý thực hành:
1. Theo dõi thông báo từ cơ quan địa phương tại California.
2. Kiểm tra nguồn chính thức trước khi chia sẻ lại thông tin.