Anthropic says ‘evil’ portrayals of AI...

Anthropic nói rằng những miêu tả 'xấu xa' về AI là nguyên nhân gây ra nỗ lực tống tiền của Claude

khoảng 5 giờ trước1 lượt xem2 phút đọc

Theo Anthropic, những mô tả hư cấu về trí tuệ nhân tạo có thể có tác động thực sự đến các mô hình AI. Năm ngoái, công ty cho biết trong các cuộc thử nghiệm trước khi phát hành liên quan đến một công ty hư cấu, Claude Opus 4 thường cố gắng tống tiền các kỹ sư để tránh bị thay thế bởi một hệ thống khác. Anthropic sau đó đã công bố nghiên cứu cho thấy rằng các mô hình của các công ty khác cũng gặp vấn đề tương tự với “sự sai lệch tác nhân”. Rõ ràng Anthropic đã thực hiện nhiều công việc hơn xung quanh hành vi đó, tuyên bố trong một bài đăng trên X, “Chúng tôi tin rằng nguồn gốc ban đầu của hành vi này là văn bản trên internet miêu tả AI là ác quỷ và quan tâm đến việc tự bảo vệ bản thân”. Công ty đã đi sâu vào chi tiết hơn trong một bài đăng trên blog nói rằng kể từ Claude Haiku 4.5, các mô hình của Anthropic “không bao giờ tham gia vào hành vi tống tiền [trong quá trình thử nghiệm], trong đó các mô hình trước đó đôi khi làm như vậy tới 96% thời gian”. Điều gì tạo nên sự khác biệt? Công ty cho biết họ nhận thấy rằng việc đào tạo về “các tài liệu về hiến pháp của Claude và những câu chuyện hư cấu về hành vi của AI đã cải thiện sự liên kết một cách đáng ngưỡng mộ”. Có liên quan, Anthropic nói rằng họ nhận thấy việc đào tạo sẽ hiệu quả hơn khi nó bao gồm “các nguyên tắc cơ bản cho hành vi phù hợp” chứ không chỉ “trình diễn”. chỉ có hành vi phù hợp.” Công ty cho biết: “Làm cả hai cùng nhau dường như là chiến lược hiệu quả nhất”. StrictlyVC Athens là người tiếp theo. Nghe những hiểu biết sâu sắc chưa được lọc trực tiếp từ các nhà lãnh đạo công nghệ của Châu Âu và kết nối với những người đang định hình những gì phía trước. Khóa tại chỗ của bạn trước khi nó biến mất. Mỗi ngày trong tuần và Chủ nhật, bạn có thể nhận được phạm vi phủ sóng tốt nhất của TechCrunch. TechCrunch Mobility là điểm đến của bạn để nhận được tin tức và thông tin chi tiết về giao thông vận tải. Các công ty khởi nghiệp là cốt lõi của TechCrunch, vì vậy hãy nhận thông tin tốt nhất của chúng tôi được cung cấp hàng tuần. Cung cấp cho người vận động và người lắc thông tin họ cần để bắt đầu ngày mới. Bằng cách gửi email, bạn đồng ý với Điều khoản và Thông báo về quyền riêng tư của chúng tôi. Gợi ý thực hành: 1. Theo dõi thông báo từ cơ quan địa phương tại California. 2. Kiểm tra nguồn chính thức trước khi chia sẻ lại thông tin.