Nội dung bài viết
Sự bùng nổ AI đã được xây dựng dựa trên một giả định cơ bản: Các mô hình lớn hơn sẽ mạnh hơn và các mô hình mạnh nhất sẽ giành chiến thắng. Bây giờ, ngành sắp tìm hiểu điều gì sẽ xảy ra nếu giả định đó bắt đầu bị phá vỡ.
Chi phí lắp đặt đã gây áp lực buộc người dùng phải xem xét lại các mẫu nhỏ hơn và rẻ hơn. Mô hình mua sắm tiết kiệm chi phí này còn mới và chưa rõ nó sẽ ảnh hưởng đến ngành như thế nào, nhưng tác động có thể sẽ rất đáng kể.
Một dự đoán được người đồng sáng lập Coinbase Brian Armstrong đưa ra là nó sẽ dẫn đến phần lớn nhiệm vụ chuyển sang các mô hình rẻ hơn. “Nhu cầu về trí thông minh gần như vô hạn, nhưng 80% khối lượng công việc sẽ chạy trên các mẫu máy rẻ hơn 99% trong vòng 12-18 tháng,” Armstrong viết trên X .
“20% khối lượng công việc sẽ vẫn chạy trên các mẫu thế hệ mới nhất trong đó việc tối đa hóa IQ là quan trọng.” Thật khó để nói quá về sự thay đổi đáng kể đối với ngành AI nếu dự đoán của Armstrong trở thành sự thật.
Trước đây, hầu hết các công ty AI đều cạnh tranh về chất lượng, điều đó có nghĩa là họ phải mặc định sử dụng mô hình tiên tiến nhất hiện có.
Nếu những công việc tương tự đó có thể được xử lý bằng các mô hình rẻ hơn mà không ảnh hưởng đến chất lượng, điều đó có nghĩa là sẽ có sự thay đổi lớn về mặt kinh tế của AI.
Và quan trọng Nói cách khác, phần lớn số tiền tiết kiệm được sẽ đến từ túi của các phòng thí nghiệm lớn, giáng một đòn tài chính vào OpenAI và Anthropic ngay khi họ chuẩn bị IPO.
Đó có thể là một sự thay đổi địa chấn trong ngành, dựa trên một câu hỏi cơ bản: Các công ty đã sẵn sàng chuyển sang các mô hình nhỏ hơn chưa? Các thử nghiệm ban đầu cho thấy rằng, khi hệ thống được bố trí phù hợp, các mẫu rẻ hơn có thể tham gia mà không phải hy sinh chất lượng.
Trong một thử nghiệm gần đây của công cụ AI hợp pháp Harvey, công ty đã có thể giảm chi phí suy luận xuống 3 lần mà không làm giảm chất lượng.
Thử nghiệm được thực hiện với sự hợp tác của nền tảng suy luận Fireworks AI, kết hợp Claude Opus và GLM 5.1 của Fireworks và chuyển sang Opus cho các nhiệm vụ chuyên sâu nhất. Kết quả là tải thấp hơn đáng kể về thời gian của máy chủ và chi phí tổng thể.
Gabe Pereyra, đồng sáng lập của Harvey, nói với TechCrunch: “Chất lượng là ưu tiên hàng đầu và về mặt pháp lý thì điều đó sẽ luôn như vậy”, đồng sáng lập Harvey, Gabe Pereyra, nói với TechCrunch, đề cập đến các dịch vụ pháp lý về AI mà công ty khởi nghiệp của ông cung cấp.
“Tuy nhiên, định nghĩa về chất lượng đang phát triển từ việc đơn giản sử dụng mô hình mạnh mẽ nhất cho mọi thứ sang sử dụng mô hình tốt nhất mang lại câu trả lời đúng và hiệu quả nhất.” Xu hướng này thường được định hình giữa các phòng thí nghiệm lớn so với Trung Quốc.
mô hình hoặc mô hình trọng lượng mở, nhưng điều đó bỏ lỡ điểm lớn hơn. Sự phân chia thực sự không phải là giữa các mô hình độc quyền và mở; đó là giữa mô hình lớn và mô hình nhỏ.
Bạn có thể tiết kiệm tiền bằng cách chuyển từ GPT-5.5 sang V4 Flash của DeepSeek, nhưng chuyển sang GPT-5.4-mini cũng có tác dụng tương tự. Đang có một cuộc chiến về giá tích cực giữa suy luận nội bộ từ các phòng thí nghiệm lớn và các mô hình trọng lượng mở được phục vụ độc lập.
Đối với câu hỏi lớn hơn về quy mô nhỏ và quy mô lớn, việc loại mô hình nhỏ nào giành chiến thắng thực sự không quan trọng.
Tất cả những điều này có vẻ hiển nhiên — tất nhiên là bạn không nên sử dụng nhiều điện toán hơn mức cần thiết — nhưng nó đi ngược lại với cách tiếp cận mở rộng quy mô đầu tiên đã thống trị ngành cho đến nay.
Lấy cảm hứng từ bài học cay đắng, các phòng thí nghiệm đã nỗ lực đào tạo những mô hình có cường độ tính toán cao nhất có thể, đẩy xa giới hạn những gì các mô hình AI có thể làm được.
Với mức giá được các nhà đầu tư trợ giá rất nhiều, khách hàng không có lý do gì để chọn bất cứ thứ gì ngoài phương án cao cấp nhất. Với giá token tăng và trợ cấp chậm lại, lần đầu tiên người dùng phải đối mặt với áp lực chi phí.
Chúng tôi không biết liệu áp lực chi phí mới có thực sự thúc đẩy người dùng doanh nghiệp chuyển sang sử dụng các mẫu máy nhỏ hơn hay không.
Họ có thể giống như e dễ dàng tiết kiệm bằng cách thực hiện ít cuộc gọi hơn, sử dụng ít bối cảnh hơn hoặc đơn giản là từ bỏ những hoạt động triển khai kém hứa hẹn nhất.
Nhưng nếu hóa ra hầu hết các hoạt động triển khai đều có thể được thực hiện tốt trên một mô hình nhỏ hơn, thì điều đó có thể gây cản trở nghiêm trọng đến nhu cầu suy luận ngày càng tăng, và đặt ra những câu hỏi mới về cách biện minh cho chi phí đào tạo một mô hình biên giới.
Khi bạn mua hàng thông qua các liên kết trong bài viết của chúng tôi, chúng tôi có thể kiếm được một khoản hoa hồng nhỏ. Điều này không ảnh hưởng đến tính độc lập biên tập của chúng tôi.
Tìm hiểu sâu hơn về những gì cần thiết để mở rộng quy mô và thành công từ các nhà lãnh đạo tại Mach Industries, Founders Fund và Shinkei Systems.
Thông qua các cuộc trò chuyện thẳng thắn bên lò sưởi và kết nối mạng có tác động cao, bạn sẽ có được những hiểu biết sâu sắc có giá trị và các kết nối mới. WWDC 2026: Mọi thứ được công bố trên Siri AI, iOS 27, Apple Intelligence, v.v.
Morgan Little Aisha Malik Anthropic's Claude Fable 5 là phiên bản của Mythos mà công chúng có thể truy cập ngay hôm nay Rebecca Bellan
Gợi ý thực hành:
1. Theo dõi thông báo từ cơ quan địa phương tại California.
2. Kiểm tra nguồn chính thức trước khi chia sẻ lại thông tin.