Nội dung bài viết
Bản dịch giọng nói sẽ giữ nguyên âm sắc, nhịp độ, cao độ của người nói—với hình mờ SynthID để bảo mật. Google đã theo đuổi dịch thuật thời gian thực trong nhiều năm và họ cho rằng đây là một trong những “thử nghiệm học máy tiên phong” của mình.
Trước đây, chúng tôi đã thấy nhiều bản demo trên sân khấu tại các sự kiện của Google nhưng bạn cần có điện thoại, tai nghe nhét tai của Google hoặc một số thiết lập cụ thể khác.
Năm ngoái, Google đã mang tính năng dịch thuật theo thời gian thực tới nhiều người dùng hơn trong ứng dụng Dịch và giờ đây ứng dụng này đang mở rộng tính khả dụng hơn nữa.
Với việc phát hành Gemini 3.5 Live Translate, bạn sẽ có quyền truy cập vào bản dịch tức thì ở nhiều nơi hơn và với độ trễ thấp hơn bao giờ hết. Mô hình AI mới là một phần của dòng phiên bản 3.5 được ra mắt tại I/O.
Trước ngày hôm nay, Google chỉ mới tung ra phiên bản Flash nhưng chúng tôi dự kiến phiên bản Pro sẽ ra mắt trong vài tuần tới. Gemini 3.5 Live Translate là mô hình chuyển lời nói thành giọng nói được điều chỉnh để tự động phát hiện và dịch sang hơn 70 ngôn ngữ.
Google cho biết Gemini 3.5 Live Translate đủ nhanh để bắt kịp một cuộc trò chuyện bình thường, chỉ sau người nói vài giây trong khi vẫn khớp ngữ điệu, nhịp độ và cao độ. Tóm lại là giọng nói giống bạn hơn là chung chung c robot.
Các bản demo đều được ghi trong điều kiện được kiểm soát, mang lại âm thanh ấn tượng. Tuy nhiên, bạn sẽ không phải đợi lâu để tự mình xác minh khả năng của mô hình.
Gemini 3.5 Live Translate đang được triển khai trên một số phần của hệ sinh thái Google. Các nhà phát triển có thể bắt đầu xây dựng bằng bản xem trước công khai trong Gemini Live API hoặc AI Studio.
Mô hình này xử lý giọng nói liên tục và tự động xử lý tất cả đầu vào đa ngôn ngữ, giúp nhà phát triển không phải cấu hình cài đặt theo cách thủ công. Nó cũng lọc tiếng ồn xung quanh trong môi trường bận rộn.
Một số khách hàng doanh nghiệp chọn lọc cũng sẽ có quyền truy cập vào mô hình dịch thuật mới trong Google Meet bắt đầu từ tháng này trước khi triển khai rộng rãi hơn. Google cho biết họ cũng đang điều chỉnh giao diện Meet để đưa tính năng dịch trực tiếp lên phía trước.
Đáng chú ý nhất là 3.5 Live Translate sẽ sớm có mặt trên ứng dụng Google Translate trên cả Android và iOS.
Vào cuối năm ngoái, Google đã bắt đầu thử nghiệm tính năng dịch trực tiếp dựa trên Gemini trong ứng dụng với bất kỳ tai nghe nhét tai nào (và trong ứng dụng iOS); trước đây, bạn cần có Pixel Buds của công ty với điện thoại Android.
Bản cập nhật đang chờ xử lý sẽ mở rộng hơn nữa với việc bổ sung mô hình 3.5 mới nhất . Bạn không chỉ có thể sử dụng bất kỳ tai nghe nhét tai nào mà còn không cần đến tai nghe nhét tai.
Nếu không có bất kỳ thiết bị cầm tay nào, bạn có thể đưa điện thoại lên tai giống như đang gọi điện để nghe bản dịch bằng giọng nói. Tuy nhiên, “chế độ nghe” này hiện chỉ hoạt động trên Android.
Các luồng âm thanh từ Gemini 3.5 Live Translate nhằm mục đích phát ra âm thanh sống động như thật ngay cả khi chúng không bắt chước chính xác giọng nói của người dùng. Tuy nhiên, Google vẫn đang tiến hành một cách thận trọng.
Tất cả các luồng âm thanh Gemini 3.5 Live Translate sẽ có hình mờ SynthID được tích hợp vào dữ liệu dạng sóng. Điều này sẽ đánh dấu bài phát biểu là do AI tạo ra và (hiện tại) không có cách nào để loại bỏ điều đó.
Ars Technica đã tách tín hiệu khỏi tiếng ồn trong hơn 25 năm. Với sự kết hợp độc đáo giữa hiểu biết về kỹ thuật và mối quan tâm sâu rộng đến nghệ thuật và khoa học công nghệ, Ars là nguồn đáng tin cậy trong biển thông tin.
Suy cho cùng, bạn không cần phải biết mọi thứ, chỉ cần biết những gì quan trọng.
Gợi ý thực hành:
1. Theo dõi thông báo từ cơ quan địa phương tại California.
2. Kiểm tra nguồn chính thức trước khi chia sẻ lại thông tin.