Nội dung bài viết
Hội nghị thượng đỉnh người sáng lập 2026 tại Boston: Đừng bỏ lỡ khoản tiết kiệm vé lên tới 300 USD. Đăng ký ngay.
Tiết kiệm tới $680 khi mua thẻ Disrupt 2026 của bạn. Kết thúc 23:59 PT tối nay.
ĐĂNG KÝ NGAY. Vào thứ Năm, OpenAI đã phát hành GPT-5.4, một mô hình nền tảng mới được coi là mô hình biên giới có khả năng và hiệu quả nhất của chúng tôi dành cho công việc chuyên môn.
Ngoài phiên bản tiêu chuẩn, GPT-5.4 còn có sẵn dưới dạng mô hình lý luận (GPT-5.4 Thought) hoặc được tối ưu hóa cho hiệu suất cao (GPT-5.4 Pro). Phiên bản API của mô hình sẽ có sẵn với các cửa sổ ngữ cảnh lớn tới 1 triệu mã thông báo, cho đến nay là cửa sổ ngữ cảnh lớn nhất có sẵn từ OpenAI.
OpenAI cũng nhấn mạnh hiệu quả của mã thông báo được cải thiện, cho biết GPT-5.4 có thể giải quyết các vấn đề tương tự với số lượng mã thông báo ít hơn đáng kể so với phiên bản tiền nhiệm.
Mô hình mới có kết quả điểm chuẩn được cải thiện đáng kể, bao gồm điểm số kỷ lục trong điểm chuẩn sử dụng máy tính được OSWorld-Được xác minh và WebArena đã được xác minh. Mô hình mới cũng đạt kỷ lục 83% trong bài kiểm tra GDPval của OpenAI cho các nhiệm vụ công việc tri thức.
GPT-5.4 cũng dẫn đầu về tiêu chuẩn APEX-Agents của Mercor, được thiết kế để kiểm tra các kỹ năng chuyên môn về luật và tài chính, theo tuyên bố từ Giám đốc điều hành Mercor, Brendan F. ôi.
Foody cho biết trong tuyên bố: [GPT-5.4] vượt trội trong việc tạo ra các sản phẩm có tầm nhìn dài hạn như bản trình chiếu, mô hình tài chính và phân tích pháp lý, mang lại hiệu suất cao nhất trong khi chạy nhanh hơn và với chi phí thấp hơn so với các mô hình biên giới cạnh tranh.” GPT-5.4 tiếp tục nỗ lực của công ty nhằm hạn chế ảo giác và sai sót thực tế.
OpenAI cho biết mô hình mới có khả năng mắc lỗi trong các khiếu nại riêng lẻ ít hơn 33% so với GPT 5.2 và các phản hồi tổng thể có khả năng mắc lỗi thấp hơn 18%.
Là một phần của buổi ra mắt, OpenAI đã làm lại cách phiên bản API của GPT-5.4 quản lý việc gọi công cụ, giới thiệu một hệ thống mới có tên là Tìm kiếm công cụ.
Trước đây, lời nhắc của hệ thống sẽ đưa ra định nghĩa cho tất cả các công cụ có sẵn khi gọi mô hình — một quy trình có thể tiêu tốn rất nhiều mã thông báo khi số lượng công cụ có sẵn ngày càng tăng.
Hệ thống mới cho phép các mô hình tra cứu định nghĩa công cụ khi cần, dẫn đến các yêu cầu nhanh hơn và rẻ hơn trong các hệ thống có nhiều công cụ có sẵn.
OpenAI cũng đã đưa vào một đánh giá an toàn mới để kiểm tra chuỗi suy nghĩ của mô hình của mình, phần bình luận đang chạy do mô hình đưa ra để thể hiện quá trình suy nghĩ của nó thông qua các nhiệm vụ gồm nhiều bước.
Các nhà nghiên cứu về an toàn AI đã lo lắng từ lâu d rằng các mô hình lý luận có thể trình bày sai chuỗi suy nghĩ của chúng và thử nghiệm cho thấy điều đó có thể xảy ra trong những trường hợp phù hợp.
Đánh giá mới của OpenAI cho thấy rằng hành vi lừa dối ít xảy ra hơn trong phiên bản Think của GPT-5.4, cho thấy mô hình này thiếu khả năng che giấu lý do và giám sát CoT vẫn là một công cụ an toàn hiệu quả. Tích cực mở rộng quy mô?
Gây quỹ? Lập kế hoạch cho lần ra mắt tiếp theo của bạn?
Hội nghị thượng đỉnh dành cho người sáng lập TechCrunch 2026 cung cấp các cẩm nang chiến thuật và quyền truy cập trực tiếp tới hơn 1.000 nhà sáng lập và nhà đầu tư đang xây dựng, hỗ trợ và kết thúc. Đăng ký trước ngày 13 tháng 3 để tiết kiệm tới $300.
Jensen Huang cho biết Nvidia đang rút lui khỏi OpenAI và Anthropic, nhưng lời giải thích của ông đặt ra nhiều câu hỏi hơn là câu trả lời.
Connie Loizos Anthropic CEO Dario Amodei gọi thông điệp của OpenAI xung quanh thỏa thuận quân sự là dối trá, báo cáo cho biết số lượt gỡ cài đặt ChatGPT của Amanda Silberling đã tăng 295% sau thỏa thuận với DoD Sarah Perez Người dùng đang bỏ ChatGPT để chuyển sang Claude, đây là cách thực hiện chuyển đổi thiếu niên Julie Bort
Gợi ý thực hành:
1. Theo dõi thông báo từ cơ quan địa phương tại California.
2. Kiểm tra nguồn chính thức trước khi chia sẻ lại thông tin.