Nội dung bài viết
StrictlyVC đầu tiên của năm 2026 sẽ ra mắt SF vào ngày 30 tháng 4. Vé đang bán rất nhanh.
Đăng ký ngay bây giờ. Tiết kiệm tới $680 khi mua thẻ Disrupt 2026 của bạn.
Kết thúc 23:59 PT tối nay. ĐĂNG KÝ NGAY.
Physical Intelligence, công ty khởi nghiệp về robot hai tuổi có trụ sở tại San Francisco đã lặng lẽ trở thành một trong những công ty AI được theo dõi chặt chẽ nhất ở Vùng Vịnh, đã công bố nghiên cứu mới hôm thứ Năm cho thấy mô hình mới nhất của họ có thể điều khiển robot thực hiện các nhiệm vụ mà chúng chưa bao giờ được đào tạo rõ ràng, một khả năng mà các nhà nghiên cứu của chính công ty cho biết đã khiến họ mất cảnh giác.
Mô hình mới, được gọi là π0,7, đại diện cho những gì công ty mô tả là một bước đi ban đầu nhưng có ý nghĩa hướng tới mục tiêu đã tìm kiếm từ lâu là một bộ não robot có mục đích chung: một bộ não có thể được chỉ vào một nhiệm vụ xa lạ, được hướng dẫn thực hiện bằng ngôn ngữ đơn giản và thực sự thực hiện được.
Nếu các phát hiện này được xem xét kỹ lưỡng, thì chúng cho thấy rằng AI robot có thể đang tiến đến một điểm uốn tương tự như những gì lĩnh vực này đã thấy với các mô hình ngôn ngữ lớn, nơi các khả năng bắt đầu kết hợp theo những cách vượt xa những gì dữ liệu cơ bản có thể dự đoán.
Nhưng trước tiên: Tuyên bố cốt lõi trong bài viết là sự khái quát hóa về mặt cấu trúc, khả năng kết hợp các kỹ năng đã học được trong các bối cảnh khác nhau để giải quyết các vấn đề mà mô hình chưa từng gặp phải.
Cho đến nay, phương pháp tiêu chuẩn để đào tạo robot về cơ bản là ghi nhớ thuộc lòng, thu thập dữ liệu về một nhiệm vụ cụ thể, đào tạo một mô hình chuyên môn về dữ liệu đó, sau đó lặp lại cho mọi nhiệm vụ mới. Trí tuệ Vật lý cho rằng π0,7 phá vỡ khuôn mẫu đó.
Sergey Levine, người đồng sáng lập Trí tuệ Vật lý và là giáo sư tại UC Berkeley tập trung vào AI cho robot, cho biết: "Một khi nó vượt qua ngưỡng đó, từ việc chỉ thực hiện chính xác những gì bạn thu thập dữ liệu đến thực sự kết hợp lại mọi thứ theo những cách mới".
Phần trình diễn nổi bật nhất của bài báo liên quan đến một nồi chiên không khí mà mô hình này về cơ bản chưa từng thấy trong quá trình đào tạo.
Khi nhóm nghiên cứu điều tra, họ chỉ tìm thấy hai tình tiết có liên quan trong toàn bộ tập dữ liệu huấn luyện: một tình tiết trong đó một robot khác chỉ đơn thuần đẩy nồi chiên không khí đóng lại và một tình tiết từ tập dữ liệu nguồn mở trong đó một robot khác đặt một chai nhựa vào trong một chai theo hướng dẫn của ai đó.
Người mẫu bằng cách nào đó đã có đã tổng hợp những phân đoạn đó, cùng với dữ liệu đào tạo trước dựa trên web rộng hơn, để hiểu rõ về cách thức hoạt động của thiết bị.
Lucy Shi, nhà nghiên cứu Trí tuệ Vật lý và Tiến sĩ khoa học máy tính Stanford, cho biết: “Rất khó để tìm ra kiến thức đến từ đâu, hoặc nó sẽ thành công hay thất bại ở đâu”. học sinh.
Tuy nhiên, không cần huấn luyện gì, người mẫu đã nỗ lực khá tốt trong việc sử dụng thiết bị này để nấu khoai lang. Với hướng dẫn bằng lời nói từng bước, về cơ bản là con người hướng dẫn robot thực hiện nhiệm vụ theo cách bạn có thể giải thích điều gì đó cho nhân viên mới, nó đã thực hiện thành công.
Khả năng huấn luyện đó rất quan trọng vì nó cho thấy robot có thể được triển khai trong môi trường mới và được cải thiện theo thời gian thực mà không cần thu thập thêm dữ liệu hoặc đào tạo lại mô hình. Vậy tất cả có nghĩa là gì?
Các nhà nghiên cứu không ngại về những hạn chế của mô hình và cẩn thận không đi trước chính mình. Trong ít nhất một trường hợp, họ chỉ tay thẳng vào đội của mình.
Shi nói: “Đôi khi chế độ lỗi không có trên robot hoặc trên mô hình. "Đó là lỗi của chúng tôi.
Không giỏi về kỹ thuật kịp thời." Cô mô tả một thí nghiệm đầu tiên về nồi chiên không khí có tỷ lệ thành công là 5%. .
Cô cho biết, sau khi dành khoảng nửa giờ để tinh chỉnh cách giải thích nhiệm vụ cho mô hình, nó đã tăng lên 95%. Mô hình này cũng chưa có khả năng tự động thực hiện các tác vụ nhiều bước phức tạp từ một lệnh cấp cao duy nhất.
Levine nói: “Bạn không thể nói với nó rằng ‘Này, đi làm bánh mì nướng cho tôi đi’.
“Nhưng nếu bạn làm theo, 'đối với máy nướng bánh mì, hãy mở phần này, nhấn nút đó, làm cái này', thì nó thực sự có xu hướng hoạt động khá tốt." Nhóm cũng thừa nhận rằng các điểm chuẩn tiêu chuẩn hóa cho robot không thực sự tồn tại, điều này khiến việc xác nhận bên ngoài các tuyên bố của họ trở nên khó khăn.
Thay vào đó, công ty đã đo π0,7 so với các mô hình chuyên dụng trước đó của chính họ — các hệ thống được xây dựng có mục đích được huấn luyện theo các nhiệm vụ riêng lẻ — và nhận thấy rằng mô hình tổng quát phù hợp với hiệu suất của chúng trong một loạt công việc phức tạp, bao gồm pha cà phê, gấp đồ giặt và lắp ráp hộp.
Điều có thể đáng chú ý nhất về nghiên cứu, nếu bạn nghe theo lời của các nhà nghiên cứu, không phải là bất kỳ bản demo đơn lẻ nào mà là mức độ mà kết quả khiến họ ngạc nhiên, những người có nhiệm vụ biết chính xác những gì có trong dữ liệu đào tạo và do đó mô hình nên và không nên làm gì.
“Kinh nghiệm của tôi luôn là Ashwin Balakrishna, một nhà khoa học nghiên cứu tại Physical Intelligence, cho biết rằng khi tôi biết sâu sắc những gì có trong dữ liệu, tôi có thể đoán được mô hình sẽ có thể làm gì. “Tôi hiếm khi ngạc nhiên.
Nhưng vài tháng qua là lần đầu tiên tôi thực sự ngạc nhiên.
Tôi vừa mua ngẫu nhiên một bộ bánh răng và hỏi robot: ‘Này, bạn có thể xoay bánh răng này không?’ Và nó đã hoạt động.” Levine nhớ lại khoảnh khắc các nhà nghiên cứu lần đầu tiên gặp GPT-2 và tạo ra câu chuyện về những con kỳ lân trên dãy Andes. “Nó học ở đâu về kỳ lân ở Peru vậy?” anh ấy nói.
“Thật là một sự kết hợp kỳ lạ. Và tôi nghĩ rằng việc nhìn thấy điều đó trong chế tạo robot thực sự rất đặc biệt.” Đương nhiên, các nhà phê bình sẽ chỉ ra sự bất cân xứng khó chịu ở đây: Các mô hình ngôn ngữ có toàn bộ Internet để học hỏi.
Robot thì không, và không có lời nhắc thông minh nào có thể thu hẹp hoàn toàn khoảng cách đó. Nhưng khi được hỏi ông mong đợi sự hoài nghi ở đâu, Levine lại chỉ ra một điều hoàn toàn khác.
Ông nói: “Những lời chỉ trích luôn có thể được đưa ra ở bất kỳ bản demo khái quát hóa robot nào là các nhiệm vụ khá nhàm chán.
“Robot không thực hiện động tác lộn ngược.” Anh ấy bác bỏ cách đóng khung đó, lập luận rằng sự khác biệt giữa một bản demo robot ấn tượng và một hệ thống robot thực sự khái quát hóa chính xác là vấn đề.
Ông gợi ý rằng việc khái quát hóa sẽ luôn trông kém kịch tính hơn một màn đóng thế được dàn dựng cẩn thận, nhưng nó hữu ích hơn đáng kể.
Gợi ý thực hành:
1. Theo dõi thông báo từ cơ quan địa phương tại California.
2. Kiểm tra nguồn chính thức trước khi chia sẻ lại thông tin.