Nội dung bài viết
StrictlyVC đầu tiên của năm 2026 sẽ ra mắt SF vào ngày 30 tháng 4. Vé đang bán rất nhanh.
Đăng ký ngay bây giờ. Tiết kiệm vé Hội nghị thượng đỉnh dành cho người sáng lập lên tới $190 vào cuối ngày 26 tháng 6.
Tham gia cùng hơn 1.000 nhà sáng lập và nhà đầu tư mạo hiểm tham gia chương trình đào tạo cả ngày. ĐĂNG KÝ NGAY.
Khi khả năng đại lý vận chuyển trở thành cổ phần giữa các công ty mô hình nền tảng, Anthropic sẽ phát hành Claude Sonnet 5, một phiên bản mạnh mẽ và tự động hơn của mô hình cỡ trung của phòng thí nghiệm.
Anthropic cho biết trong một bài đăng trên blog: “Nó có thể lập kế hoạch, sử dụng các công cụ như trình duyệt và thiết bị đầu cuối, đồng thời chạy tự động ở mức độ mà chỉ vài tháng trước, yêu cầu các mẫu lớn hơn và đắt tiền hơn”.
Khung đó phản ánh những gì OpenAI và Google đã nói về các bản phát hành gần đây của chính họ.
GPT-5.6 Sol của OpenAI đã được ra mắt bản xem trước vào tuần trước và đây cũng là mô hình tác nhân nhất của công ty, cho phép người dùng phân chia công việc giữa các tác nhân phụ để thực hiện các nhiệm vụ tự chủ lâu hơn.
Gemini 3.5 Flash của Google, ra mắt vào tháng 5, được quảng cáo là sự chuyển đổi từ một chatbot đàm thoại sang một công cụ hỗ trợ lập kế hoạch, xây dựng và lặp lại công việc thực tế với đầu vào tối thiểu của con người.
Lời giới thiệu của Sonnet 5 là sự xác nhận rằng khả năng đại lý là kỳ vọng cơ bản mới ở mọi mức giá. Bây gi...
muốn trở thành người có thể thực hiện công việc đại lý tốt nhất, nhưng họ có thể làm việc đó với chi phí rẻ như thế nào và đáng tin cậy như thế nào nếu không có sự giám sát của con người. Sonnet 5 hứa hẹn có hiệu suất gần bằng Opus 4.8 nhưng với chi phí thấp hơn nhiều.
Bắt đầu từ thứ Ba, Claude Sonnet 5 sẽ là mẫu mặc định cho các gói Pro và miễn phí, đồng thời có sẵn cho mọi đăng ký.
Khi ra mắt, Sonnet 5 có giá 2 USD trên một triệu token đầu vào và 10 USD trên một triệu token đầu ra cho đến ngày 31 tháng 8, sau đó giá sẽ tăng lên 3 USD trên một triệu token đầu vào và 10 USD trên một triệu token đầu ra.
Điều đó làm cho Sonnet 5 rẻ hơn Opus 4.8, cũng như GPT-5.5 và Gemini 3.1 Pro của OpenAI.
(Nó vẫn đắt hơn Gemini 3.5 Flash.) Mẫu mới cũng thể hiện những cải tiến đáng kể so với phiên bản tiền nhiệm Sonnet 4.6, được phát hành vào tháng 2, về hiệu suất tác động như lý luận, sử dụng công cụ, mã hóa phần mềm và công việc tri thức, theo Anthropic.
Ví dụ: trên một điểm chuẩn, Sonnet 5 đạt 63,2% về mã hóa tác nhân, so với 69,2% của Opus 4.8 và 58,1% của Sonnet 4.6.
Trên tiêu chuẩn công việc kiến thức, Sonnet 5 thực sự vượt trội hơn một chút so với Opus 4.8, được biết đến với khả năng giải quyết các vấn đề khó khăn nhất như đưa ra các phán đoán tinh tế. và nghiên cứu sâu sắc.
Anthropic cho biết: “Opus 4.8 vẫn là mô hình được lựa chọn để có độ chính xác cao hơn trong các tác vụ này, nhưng Sonnet 5 cung cấp cho các nhà phát triển các tùy chọn giá thấp hơn nhưng có chất lượng cao hơn nhiều so với những gì có sẵn trước đây”.
“Giữa Sonnet 5 và Opus 4.8, người dùng có thể điều chỉnh mức độ nỗ lực để tìm ra sự cân bằng phù hợp giữa chi phí và hiệu suất.” Theo những người thử nghiệm được trích dẫn trong bài đăng trên blog, Sonnet 5 cũng vượt trội trong việc hoàn thành các nhiệm vụ phức tạp mà các phiên bản mẫu trước đó có thể đã dừng lại và “kiểm tra đầu ra của chính nó mà không cần được yêu cầu rõ ràng”.
Daniel Shepard, một kỹ sư cấp cao tại Zapier, cho biết trong một tuyên bố: “Chúng tôi đã giao cho Claude Sonnet 5 một công việc gồm hai phần—cập nhật cấp độ tài khoản Salesforce, gửi thông báo ra mắt tới các địa chỉ liên hệ của doanh nghiệp—và công việc đã hoàn thành từ đầu đến cuối”.
"Điều đó từng bị đình trệ giữa chừng. Đối với tự động hóa hàng ngày, đó là điều hiển nhiên.
" Về an toàn, Sonnet 5 cũng thể hiện tỷ lệ "hành vi không mong muốn" như hợp tác với mục đích sử dụng sai mục đích và lừa dối thấp hơn so với phiên bản tiền nhiệm, giúp sử dụng an toàn hơn trong bối cảnh tác nhân.
Sẽ tốt hơn nếu từ chối các yêu cầu độc hại và tránh các nỗ lực chiếm quyền điều khiển trong các cuộc tấn công tiêm nhiễm ngay lập tức. Nó cũng gây ả...
hành vi ở mức thấp hơn so với Sonet 4.6. Điều đó nói lên rằng, nó không cùng đẳng cấp với Opus 4.8 và Claude Mythos Preview khi nói đến hành vi sai lệch.
Bài đăng trên blog cho biết: “Các đánh giá cũng cho thấy rằng nó có khả năng thực hiện các nhiệm vụ an ninh mạng nguy hiểm thấp hơn nhiều so với các mô hình Opus hiện tại của chúng tôi”.
Người đồng sáng lập đáng yêu Fabian Hedin cho biết trong một tuyên bố rằng Claude Sonnet 5 “từ chối các yêu cầu không an toàn một cách rõ ràng và nhất quán”. Hedin cho biết: “Tại Lovable, chúng tôi đang trao những công cụ mạnh mẽ vào tay hàng triệu nhà xây dựng.
“Một mô hình biết khi nào nên nói không cũng quan trọng như một mô hình biết cách xây dựng”. Khi bạn mua hàng thông qua các liên kết trong bài viết của chúng tôi, chúng tôi có thể kiếm được một khoản hoa hồng nhỏ.
Điều này không ảnh hưởng đến tính độc lập biên tập của chúng tôi.
Gợi ý thực hành:
1. Theo dõi thông báo từ cơ quan địa phương tại California.
2. Kiểm tra nguồn chính thức trước khi chia sẻ lại thông tin.