Nội dung bài viết
Công ty khởi nghiệp AI Decart hôm thứ Tư đã tiết lộ Oasis 3, mô hình thế giới tương tác mới nhất của họ có thể tạo ra môi trường lái xe giống như ảnh thực trong thời gian thực, TechCrunch đã độc quyền tìm hiểu. Mô hình hiện có sẵn thông qua API.
Công ty khởi nghiệp này ban đầu nhắm mục tiêu vào các công ty xe tự hành cần mô phỏng các tình huống lái xe hiếm gặp trên quy mô lớn và có kế hoạch mở rộng sang chế tạo robot và các ứng dụng AI vật lý khác.
Nhưng đặt cược lớn hơn vào các nhà phát triển: Bằng cách cung cấp quyền truy cập API ngay từ ngày đầu, Decart đang cố gắng xây dựng một hệ sinh thái nhà phát triển xung quanh các mô hình thế giới giống như cách OpenAI đã làm với các mô hình ngôn ngữ.
Dean Leitersdorf, đồng sáng lập và CEO của Decart, nói với TechCrunch: “Đây sẽ là mô hình thế giới có thể sử dụng được đầu tiên mà mọi người thực sự có thể lập trình trên đó”.
“Tôi nghĩ sẽ có cả một cộng đồng nhà phát triển xuất hiện dựa trên điều này.” Công ty khởi nghiệp này đã có một cộng đồng gồm hơn 100.000 nhà phát triển, nhiều người trong số họ đang xây dựng các sản phẩm dựa trên mô hình video thời gian thực Lucy, chủ yếu trong lĩnh vực thương mại điện tử và phát trực tiếp.
Oasis 3 dựa trên mô hình nền tảng đó và nó thể hiện sự thúc đẩy của công ty vào lĩnh vực AI vật lý. Quyền truy cập có giá 0,02 USD mỗi giây và giá dành cho doanh nghiệp phụ thuộc vào trường hợp sử dụng, Decart nói.
Decart đang chơi trong một đấu trường người mẫu thế giới ngày càng đông đúc.
Năm ngoái, Google đã phát hành Genie 3 trong bản xem trước nghiên cứu, Phòng thí nghiệm thế giới của Fei-Fei Li đã ra mắt Marble cho các trường hợp sử dụng thương mại và các công ty khởi nghiệp sản xuất video như Luma và Runway cũng đang chuyển các mô hình video nhận thức vật lý của họ sang các mô hình thế giới.
Việc phát hành Oasis 3 diễn ra vài tuần sau khi Decart hai tuổi huy động được 300 triệu USD, điều mà Leitersdorf cho biết là do “nhu cầu tăng lên rất lớn đối với các mô hình mà chúng tôi đã xây dựng” trong thương mại điện tử, phát trực tiếp và AI vật lý.
Vòng này đã nâng mức định giá của Decart lên gần 4 tỷ USD và thu hút hàng loạt nhà đầu tư chiến lược như Toyota, Adobe và eBay. Leitersdorf cho biết tất cả các công ty này đều là khách hàng tiềm năng.
Nvidia, một nhà đầu tư hiện tại, cũng tham gia vào vòng này. Lợi thế của Oasis 3 nằm ở tính chân thực của các mô hình và khả năng tạo vô hạn.
Đó là do một số thuật sĩ hiệu quả từ phía Decart, được hỗ trợ bởi sản phẩm chính khác của công ty: phần mềm DOS (Decart Optimization Stack) cho phép các mô hình chạy hiệu quả trên phần cứng Nvidia, Amazon và Google, khiến các mô hình của nó chạy ít tốn kém hơn nhiều so với các đối thủ cạnh tranh.
"Cái này Leitersdorf cho biết: "Bằng cách tích hợp theo chiều dọc, chúng tôi có thể rẻ hơn nhiều so với bất kỳ ai khác trong ngành để chạy các mô hình này." Theo Leitersdorf, các mô hình của công ty khởi nghiệp này hiệu quả đến mức nó đã tiêu tốn “ít hơn đáng kể” dưới 100 triệu USD trong suốt thời gian tồn tại của mình.
Oasis 3 tạo ra môi trường nhiều camera, chính xác về mặt vật lý — một mặt trước và hai mặt — cho các hệ thống đào tạo và kiểm tra.
Và thay vì cung cấp các bản demo và bản xem trước nghiên cứu có giới hạn, Decart cho phép các nhà phát triển tạo ra các kịch bản vô hạn, điều này hoàn hảo cho các nhà phát triển xe tự hành muốn thử nhiều trường hợp tiên tiến nhất có thể.
So với các mô hình khác mà tôi đã thử, như Genie 3 của Google hay World Labs's Marble, Oasis 3 mang lại môi trường chân thực nhất từ một lời nhắc văn bản duy nhất mà tôi từng thấy. Và việc bạn có thể tương tác với họ hàng giờ cho thấy mức độ hiệu quả mà các đối thủ của Decart có thể thiếu.
Nhưng bằng cách cho phép bạn tạo ra một thế giới trong thời gian dài, mô hình này cũng xuống cấp đáng kể.
Trong thử nghiệm của mình, tôi nhận thấy hệ thống có thể bao gồm Tôi không thiết lập một cảnh ban đầu mạnh mẽ phù hợp với lời nhắc, nhưng tính toàn vẹn của chủ đề xuống cấp nhanh chóng khi tôi di chuyển khắp thế giới.
Tôi đã nhắc nó tạo ra một con phố ở Thành phố New York vào buổi sáng, nó đã làm như vậy rất đẹp. Nhưng khi tôi lái xe, môi trường trông không giống New York mà giống một phiên bản tiêu chuẩn của bất kỳ thành phố phương Tây nào.
Khi tôi cố quay lại và tìm đường quay lại ngã tư ban đầu thì nó đã biến mất, thay vào đó là một môi trường hoàn toàn mới.
Trên hết, các nút điều khiển không phản ứng nhanh và tôi thường mất kiểm soát nơi xe đang di chuyển (một lần nữa, một nhược điểm được chia sẻ bởi các mẫu xe thế giới khác mà tôi đã thử nghiệm).
Trải nghiệm này không giống một sự mô phỏng mạch lạc mà giống một dòng ý thức rời rạc, giống như một giấc mơ và nhanh chóng trở nên vô nghĩa.
Một vấn đề khác mà tôi cũng đã thấy ở các mẫu xe khác trên thế giới là chiếc xe sẽ chỉ lái qua những chiếc xe khác, có nghĩa là mô hình đó không mô phỏng vật lý đúng cách trong môi trường.
Leitersdorf gọi đây là “vấn đề nghiên cứu lớn mà chúng tôi hiện đang giải quyết”, cho rằng thực tế là “có nhiều dữ liệu hơn về việc lái xe tốt so với tai nạn”. Một phần tạo nên tính nhất quán vật lý này khó khăn là nền tảng cho cách thức hoạt động của mô hình thế giới này.
Oasis 3 có tính năng tự động hồi quy, nghĩa là nó tạo từng khung hình một và xem lại những gì nó đã tạo trước đó để quyết định khung hình nào tiếp theo. Đây là một đặc điểm kiến trúc quan trọng của nhiều mô hình trên thế giới và nó cũng là một đặc điểm đòi hỏi nhiều tính toán.
Để duy trì tính nhất quán, Leitersdorf cho biết nhóm Decart đang nỗ lực cải thiện độ dài bộ nhớ của mô hình. Ông nói: “Mỗi khung hình chúng tôi tạo ra có khoảng 8.000 mã thông báo.
"Tạo ra điều này với tốc độ hàng chục khung hình mỗi giây, tức là hàng trăm nghìn mã thông báo mỗi giây. Cửa sổ ngữ cảnh lấp đầy rất nhanh.
Chúng tôi đang nghiên cứu cách tạo ngữ cảnh dài hơn để lưu trữ thêm hàng triệu mã thông báo và cách nén bộ nhớ thành ít mã thông báo hơn."
Gợi ý thực hành:
1. Theo dõi thông báo từ cơ quan địa phương tại California.
2. Kiểm tra nguồn chính thức trước khi chia sẻ lại thông tin.