Anthropic says these topics are too...

Mô hình biên giới mới từ chối các truy vấn về an ninh mạng, sinh học và hóa học. Anthropic hôm thứ Ba đã phát hành công khai Claude Fable 5, mẫu “Class Mythos” đầu tiên mà họ cho rằng vượt qua các mẫu Opus hàng đầu trước đó về khả năng tổng thể. Tuy nhiên, việc ra mắt mô hình ngày hôm nay đi kèm với các biện pháp bảo vệ được thiết kế để ngăn mô hình trả lời các truy vấn về các chủ đề như an ninh mạng, sinh học và hóa học, những lĩnh vực mà công ty đã công khai lo lắng về tác động tiềm tàng của nó đối với các tác nhân độc hại “nâng cao”. Anthropic cho biết Fable 5 hoạt động trên “mô hình cơ bản tương tự” như Mythos 5, hiện đã kết thúc giai đoạn “Mythos Preview” kéo dài hàng tháng, nhưng chỉ dành cho “một nhóm nhỏ những người bảo vệ mạng” được đánh giá là đáng tin cậy thông qua Dự án Glasswing hiện có. Tuy nhiên, không giống như Mythos 5, Fable 5 có thể truy cập công khai được thiết kế để chuyển các truy vấn về một số chủ đề nhạy cảm nhất định sang mô hình Claude Opus 4.8 trước đó và cảnh báo người dùng khi điều này xảy ra. Anthropic cho biết họ đã điều chỉnh các biện pháp bảo vệ này để “nghiêm ngặt hơn mức lý tưởng”, nghĩa là hệ thống đôi khi có thể từ chối “các yêu cầu vô hại” theo cách mà họ thừa nhận có thể gây khó chịu cho người dùng thông thường. Nhưng Anthropic cho biết những kết quả dương tính giả như vậy xuất hiện ít hơn. n năm phần trăm của tất cả các phiên thử nghiệm và đáng để tránh các tình huống mà Mythos có thể hỗ trợ các tác nhân độc hại trong việc “gây ra tổn hại nghiêm trọng mà họ không thể nhận được từ các nguồn khác”. Các biện pháp bảo vệ dựa trên chủ đề của Fable 5 được xây dựng xung quanh một hệ thống phân loại được thiết kế để phát hiện rộng rãi các chủ đề bị cấm cũng như mọi nỗ lực bẻ khóa tiềm ẩn. Trong hơn 1.000 giờ thử nghiệm của đội đỏ với chương trình thưởng lỗi, Anthropic cho biết các nhóm bên ngoài đã không tìm thấy bất kỳ bản bẻ khóa chung nào cho Fable 5. Mô hình mới cũng chống lại các nỗ lực bẻ khóa tự động ở mức độ lớn hơn nhiều so với các mô hình Claude Opus trước đó, Anthropic cho biết. Công ty cho biết họ đặc biệt lo lắng về khả năng thực hiện “hack tác nhân” của Mythos 5, thực hiện các cuộc tấn công mạng đa phần với nhiều cơ sở hơn so với các mẫu trước đó. Nhưng thử nghiệm từ Viện An ninh AI của Vương quốc Anh trong những tháng gần đây cho thấy Mythos Preview hoạt động tương tự như GPT-5.5 của OpenAI trong bộ thử thách Capture the Flag, cho thấy hiệu suất của Mythos không phải là “một bước đột phá dành riêng cho một mô hình”. Trong số hàng loạt cải tiến kiểm tra điểm chuẩn từ trung bình đến trung bình thông thường mà Anthropic báo cáo cho Mythos 5 năm ngoái Trong các mô hình biên giới trước đây, công ty tuyên bố đã có bước nhảy vọt đáng kể về khả năng của mô hình trong bài kiểm tra ExploitBench tập trung vào an ninh mạng. Mythos 5 đạt 78% trong các bài kiểm tra điểm chuẩn về khai thác mã dễ bị tổn thương, tăng đáng kể so với điểm 40% từ Opus 4.8 và thậm chí cả điểm 69% mà Mythos Preview đạt được. Mặc dù các mô hình Anthropic trước đó đã chặn các truy vấn liên quan đến vũ khí sinh học, nhưng trình phân loại đó hiện áp dụng cho tất cả các truy vấn liên quan đến hóa học và sinh học trong Fable 5. Công ty cho biết họ lo ngại rằng “những tác nhân độc hại có nguồn lực tốt” có thể sử dụng các truy vấn thậm chí có vẻ lành tính về những chủ đề này để hỗ trợ “nghiên cứu sinh học có rủi ro cao” theo cách hiệu quả hơn nhiều so với các mô hình trước đó. Anthropic dường như hiểu rằng việc đưa một số chủ đề nhất định ra ngoài giới hạn cho Fable 5 là một con dao hai lưỡi. Công ty viết rằng “những truy vấn tương tự có lợi cho các chuyên gia an ninh mạng và nhà nghiên cứu sinh học nhưng lại có thể nguy hiểm nếu có sẵn cho các tác nhân độc hại”. Điều đó đặt Anthropic vào tình thế có phần khó xử khi phải đánh giá xem ai đủ tin cậy và không đủ tin cậy để có quyền truy cập vào một mô hình mà họ cho rằng có tiềm năng. khả năng hào phóng. Công ty cho biết họ sẽ định kỳ mở rộng chương trình Project Glasswing hiện tại “với sự tham vấn của chính phủ Hoa Kỳ” để thu hút nhiều chuyên gia an ninh mạng hơn. Việc mở rộng đó cũng sẽ bao gồm một chương trình truy cập đáng tin cậy mới dành cho các tổ chức khoa học đời sống nhằm loại bỏ các biện pháp bảo vệ sinh học/hóa học của Fable 5 trong khi vẫn duy trì các biện pháp bảo vệ an ninh mạng. Người dùng API và Enterprise sẽ có thể truy cập mô hình Fable 5 với chi phí mã thông báo đầu vào là 10 đô la trên một triệu đô la và mã thông báo đầu ra là 50 đô la trên một triệu đô la bắt đầu từ hôm nay. Những mức giá đó cao hơn từ 67 đến 100 phần trăm so với mức giá dành cho GPT-5.5 gần đây của OpenAI, một sự khác biệt có thể đáng kể vào thời điểm mà nhiều người dùng đang lưỡng lự trước mức giá cao của các mẫu máy biên giới. Các gói đăng ký hiện tại của Anthropic sẽ bao gồm quyền truy cập vào Fable 5 cho đến ngày 22 tháng 6, sau đó người dùng sẽ cần mua “tín dụng sử dụng” để truy cập mô hình mới. Anthropic cho biết cuối cùng họ hy vọng sẽ khôi phục quyền truy cập Fable 5 như một phần tiêu chuẩn của gói đăng ký sau khi có “đủ năng lực” để làm điều đó. Ars Technica đã tách tín hiệu khỏi tiếng ồn trong hơn 25 năm. Với sự kết hợp độc đáo của chúng tôi giữa hiểu biết về kỹ thuật và phạm vi rộng Vì quan tâm đến nghệ thuật và khoa học công nghệ, Ars là nguồn đáng tin cậy trong biển thông tin. Suy cho cùng, bạn không cần phải biết mọi thứ, chỉ cần biết những gì quan trọng. Gợi ý thực hành: 1. Theo dõi thông báo từ cơ quan địa phương tại California. 2. Kiểm tra nguồn chính thức trước khi chia sẻ lại thông tin.

Anthropic cho biết những chủ đề này quá nguy hiểm để mô hình Fable 5 của họ nói đến