Nội dung bài viết
Chương trình tự cải tiến dành cho robot của Nvidia huy động các nhóm tác nhân mã hóa AI.
Điều gì sẽ xảy ra khi bạn cung cấp cho các tác nhân mã hóa AI một phòng thí nghiệm chứa đầy các cánh tay robot, một số tài nguyên máy tính và “ngân sách mã thông báo hào phóng” để dạy các robot khác nhau thực hiện các nhiệm vụ khác nhau?
Các đặc vụ rõ ràng có thể tìm ra một chế độ huấn luyện dạy cho robot cắt dây zip thành công và thậm chí lắp GPU vào các ổ cắm mỏng trên bo mạch chủ.
Cái nhìn thoáng qua về cách AI có thể hoạt động theo cách hoàn toàn tự động để tự động hóa quá trình đào tạo robot đã được thực hiện nhờ khung khai thác tác nhân mới—phần mềm bao bọc các mô hình AI để cho phép chúng sử dụng nhiều công cụ khác nhau, đồng thời cung cấp các khả năng như bộ nhớ, bối cảnh, ràng buộc và vòng phản hồi.
Khai thác tác nhân đó, được gọi là ENPIRE, được phát triển bởi các nhà nghiên cứu robot tại phòng thí nghiệm Nvidia GEAR (Nghiên cứu tác nhân thể hiện tổng quát) cùng với các cộng tác viên từ Đại học Carnegie Mellon ở Pittsburgh và Đại học California, Berkeley.
Jim Fan, giám đốc AI tại NVIDIA, viết trong một bài đăng trên LinkedIn: “Một bộ phận trong phòng thí nghiệm NVIDIA GEAR của chúng tôi hiện có thể tự cải thiện không mệt mỏi chỉ sau một đêm”.
“Chúng tôi mới đọc báo cáo vào buổi sáng.” Fan còn mô tả đùa mục tiêu của robot điều khiển bằng AI như vậy t đào tạo, nói rằng, “Tất cả chúng tôi đều đi nghỉ và Jensen thậm chí sẽ không nhận thấy,” ám chỉ người sáng lập và Giám đốc điều hành Nvidia Jensen Huang.
Nhưng không chỉ các nhà nghiên cứu robot của Nvidia mới có thể được hưởng lợi— Fan cho biết nhóm sẽ cung cấp nguồn mở mọi thứ để bất kỳ ai cũng có thể tổ chức “phòng thí nghiệm robot tự vận hành tại nhà” của riêng họ.
Khai thác ENPIRE có bốn mô-đun cho phép các tác nhân mã hóa AI thực hiện tự động đặt lại và xác minh các nhiệm vụ, tinh chỉnh các chính sách hướng dẫn hành vi của robot, đánh giá các chính sách đó trên nhiều robot vật lý hoạt động song song và giải quyết các lỗi bằng cách phân tích nhật ký, nhập tài liệu nghiên cứu cũng như cải thiện cơ sở hạ tầng đào tạo và mã thuật toán.
Thông tin chi tiết kỹ thuật khác có trong tài liệu nghiên cứu được tải lên vào ngày 16 tháng 6 năm 2026. Dây nịt đã được thử nghiệm với ba tác nhân mã hóa AI khác nhau, bao gồm Codex của OpenAI với GPT-5.5, Mã Claude của Anthropic với Opus 4.7 và Mã Kimi của Moonshot AI với Kimi K2.6.
Các nhóm tác nhân mã hóa đã phát triển độc lập các phương pháp tiếp cận thuật toán khác nhau để huấn luyện robot, thử nghiệm chúng trong các thử nghiệm trong thế giới thực và sau đó giữ lại mọi thay đổi đã giúp nâng cao tỷ lệ thành công chung qua các chu kỳ thử nghiệm tự định hướng lặp đi lặp lại.
ting. Được trang bị ENPIRE, các tác nhân mã hóa AI đã phát triển các chiến lược để robot tự cải thiện, đạt tỷ lệ thành công 99% trong một số nhiệm vụ thao tác, bao gồm nhiệm vụ “Push-T” tiêu chuẩn thách thức robot di chuyển khối hình chữ T để vừa với vị trí mục tiêu trên đầu bàn.
Các nhiệm vụ khác bao gồm sắp xếp các chốt trong hộp ghim, buộc và cắt dây kéo cũng như đặt GPU vào bo mạch chủ trước khi rút lại card đồ họa để thiết lập lại cho lần dùng thử tiếp theo. Kết quả hứa hẹn nhất có thể đến từ nhiệm vụ sắp xếp và chèn ghim.
Trong kịch bản đào tạo robot đó, các tác nhân mã hóa AI đã đạt được thành công nhanh hơn gần 100% so với “phương pháp đưa con người vào vòng lặp tiên tiến” do nhiều nhà nghiên cứu con người tương tự phát triển.
Những thí nghiệm như vậy cũng cho thấy các nhóm lớn hơn gồm tám tác nhân mã hóa AI có thể đạt được tỷ lệ thành công cao trong việc đào tạo robot nhanh hơn so với các nhóm bốn tác nhân nhỏ hơn hoặc các tác nhân đơn lẻ làm việc một mình.
Ví dụ: nhóm tám tác nhân đã đạt được thành công 99% trong nhiệm vụ Push-T trong hai giờ nghiên cứu, so với nhóm bốn tác nhân cần ba giờ và nhóm một tác nhân cần gần năm giờ.
Nhưng con người các nhà nghiên cứu cũng phát hiện ra một số hạn chế quan trọng khi giải phóng các tác nhân mã hóa AI với tư cách là người huấn luyện robot tự động.
Các robot thường không hoạt động và không được sử dụng trong khi các tác nhân mã hóa đang bận “đọc nhật ký, viết mã, gỡ lỗi hoặc chờ xương sống mô hình ngôn ngữ”.
Các nhóm tác nhân mã hóa lớn hơn cũng dành nhiều thời gian hơn để tóm tắt ý tưởng của nhau và dành ít thời gian hơn để sử dụng rô-bốt, đồng thời các tác nhân mã hóa đôi khi không tận dụng được hết các tài nguyên điện toán sẵn có khi triển khai các phiên đào tạo song song.
Tỷ lệ thành công nhanh hơn nhờ có nhiều đại lý và robot làm việc cùng nhau hơn cũng đi kèm với chi phí tiêu thụ mã thông báo cao hơn — một điều cần cân nhắc đáng chú ý vào thời điểm các nhà phát triển AI như Anthropic đang cân nhắc những thay đổi về giá sẽ làm tăng đáng kể chi phí liên quan đến mã thông báo khi sử dụng dịch vụ AI.
Nhờ tiền mặt từ sự bùng nổ AI, Nvidia đang bận rộn thúc đẩy tầm nhìn của mình về AI vật lý thông qua nhiều sáng kiến về robot.
Vào ngày 31 tháng 5, công ty đã công bố hợp tác với công ty chế tạo robot nổi tiếng Unitree của Trung Quốc để cung cấp “Robot hình người tham chiếu” cho các phòng thí nghiệm nghiên cứu phát triển robot hỗ trợ AI cho mục đích chung.
Trong chuyến du lịch vòng quanh Hàn Quốc vào đầu tháng 6, người sáng lập và Giám đốc điều hành Nvidia Jensen Huang cũng đã gặp Chủ tịch điều hành Hyundai Motor Chung Euisun để thảo luận về việc mở rộng quy mô sản xuất hàng loạt robot hỗ trợ AI.
Tập đoàn ô tô Hyundai sở hữu công ty chế tạo robot Boston Dynamics của Mỹ, công ty vốn nổi tiếng với “chó robot” Spot bốn chân và đang nỗ lực thương mại hóa robot hình người Atlas của mình. Ars Technica đã tách tín hiệu khỏi tiếng ồn trong hơn 25 năm.
Với sự kết hợp độc đáo giữa hiểu biết về kỹ thuật và mối quan tâm sâu rộng đến nghệ thuật và khoa học công nghệ, Ars là nguồn đáng tin cậy trong biển thông tin. Suy cho cùng, bạn không cần phải biết mọi thứ, chỉ cần biết những gì quan trọng.
Gợi ý thực hành:
1. Theo dõi thông báo từ cơ quan địa phương tại California.
2. Kiểm tra nguồn chính thức trước khi chia sẻ lại thông tin.