Why Google’s AI can’t spell Google (or...

StrictlyVC đầu tiên của năm 2026 sẽ ra mắt SF vào ngày 30 tháng 4. Vé đang bán rất nhanh. Đăng ký ngay bây giờ. Nhận khoản tiết kiệm từ chương trình Disrupt Early Bird lên tới 410 USD trước 11:59 tối ngày 29 tháng 5. PT. Đăng ký ngay bây giờ. Có bao nhiêu chữ P trong Google? Theo Google, có hai. Ngoài ra còn có “chính xác là 1 ‘r’ trong từ ‘poop’,” Tổng quan về AI của Google cho biết, cũng như hai chữ ‘d trong từ báo chí, nhưng được đánh vần là: j-o-u-r-n-a-d-i-s-m. Ít nhất Google đã xác định được rằng có một chữ P trong họ của tổng thống Mỹ nhưng lại đánh vần nó là t-r-p-u-m. Bạn không cần phải là nhà tiên tri mới có thể dự đoán rằng quá trình cải tổ Tìm kiếm chuyển tiếp AI của Google sẽ diễn ra không tốt. Chúng tôi đã làm điều này trước đây. Lần đầu tiên Google thêm Tổng quan về AI vào Tìm kiếm, tính năng này đã trích dẫn các bài đăng châm biếm từ The Onion và Reddit, khuyên mọi người nên ăn đá và bôi keo lên bánh pizza của họ. Lần này, khi Google tăng gấp đôi cam kết biến AI sáng tạo trở thành trung tâm của sản phẩm chủ lực 29 năm tuổi của mình, không có gì ngạc nhiên khi thấy nó vấp ngã. Google đang cải tiến toàn bộ công cụ tìm kiếm của mình thành btw pic.twitter.com/PIR4llFhiV “Đếm trong các từ đã là một thách thức đã biết đối với LLM và chúng tôi đang nỗ lực khắc phục vấn đề cụ thể này e," Google nói với TechCrunch trong một tuyên bố gửi qua email. Những lỗi chính tả cơ bản này có vẻ quen thuộc. LLM, loại trí tuệ nhân tạo hỗ trợ chatbot và các trình tạo văn bản khác, không được xây dựng để hiểu chính tả. Đã có một trò đùa trong nhiều năm rằng bất cứ khi nào một công ty công bố một mô hình AI mới, bạn nên hỏi nó có bao nhiêu chữ 'r trong từ dâu tây. Những mô hình AI này, có thể mã hóa một ứng dụng trong vài giây hoặc giải quyết các vấn đề khiến các nhà toán học bối rối trong nhiều thập kỷ, cũng giỏi như một học sinh mẫu giáo ở Tuy nhiên, vấn đề về chính tả trong tổng quan về AI của Google đã vượt ra ngoài những lỗi chính tả ngớ ngẩn. Google đã vá một vấn đề từ tuần trước, trong đó việc tìm kiếm từ “bỏ qua” sẽ mang lại kết quả trông giống như một định nghĩa từ điển của từ đó, chỉ có định nghĩa được hiển thị là “Đã hiểu. Hãy cho tôi biết bất cứ khi nào bạn có lời nhắc hoặc câu hỏi mới!” Nhưng những lỗi chính tả này vẫn gây cười vì chúng rất khó sửa. Như các nhà nghiên cứu đã giải thích trước đây khi chúng tôi hỏi về những câu hỏi hóc búa về chính tả này, AI không coi câu là đơn vị ngôn ngữ được tạo thành từ các từ và chữ cái. Nhiều LLM được xây dựng trên các mô hình máy biến áp, chia nhỏ văn bản thành các okens, có thể là từ đầy đủ, âm tiết hoặc chữ cái, tùy thuộc vào kiểu máy. Thay vì “đọc” như con người, AI chuyển đổi văn bản thành các dạng biểu thị bằng số của chính nó, sau đó được ngữ cảnh hóa để giúp AI đưa ra phản hồi hợp lý. "LLM dựa trên kiến trúc máy biến áp này, điều đáng chú ý là không thực sự đọc văn bản. Điều xảy ra khi bạn nhập một lời nhắc là nó được dịch thành mã hóa", Matthew Guzdial, một nhà nghiên cứu AI và trợ lý giáo sư tại Đại học Alberta, nói với TechCrunch. “Khi nhìn thấy từ ‘the’, nó có một mã hóa cho ý nghĩa của ‘the’, nhưng nó không biết về ‘T,’ ‘H,’ ‘E.’” Kiến trúc dựa trên mã thông báo hỗ trợ LLM như tổng quan về AI của Google vốn đã hạn chế và các nhà nghiên cứu không lạc quan rằng họ có thể giải quyết vấn đề chính tả. Sheridan Feucht, một nghiên cứu sinh tiến sĩ nghiên cứu về khả năng diễn giải mô hình ngôn ngữ lớn tại Đại học Northeastern, cho biết: “Thật khó để giải quyết câu hỏi chính xác thì một ‘từ’ nên là gì đối với một mô hình ngôn ngữ và ngay cả khi chúng tôi được các chuyên gia con người đồng ý về một từ vựng mã thông báo hoàn hảo, các mô hình có thể vẫn thấy việc ‘phân chia’ mọi thứ trở nên hữu ích hơn nữa”. nói với TechCrunch. “Tôi đoán là không có thứ gọi là tokenizer hoàn hảo do kiểu mờ nhạt này.” Đây không hẳn là vấn đề cấp bách đối với các nhà nghiên cứu, vì tiện ích của LLM không nằm ở khả năng đánh vần của chúng. Nhưng những thất bại trắng trợn này giúp chúng ta nhớ rằng AI không hoàn hảo, ngay cả khi đôi khi nó có vẻ giống như một sức mạnh toàn diện vượt quá tầm hiểu biết của chúng ta. Chúng ta không thể tin tưởng một cách mù quáng vào kết quả đầu ra của AI mà không kiểm tra kỹ độ chính xác của chúng. Khi bạn mua hàng thông qua các liên kết trong bài viết của chúng tôi, chúng tôi có thể kiếm được một khoản hoa hồng nhỏ. Điều này không ảnh hưởng đến tính độc lập biên tập của chúng tôi. Amanda Silberling là cây viết cấp cao của TechCrunch về sự giao thoa giữa công nghệ và văn hóa. Cô cũng đã viết bài cho các ấn phẩm như Polygon, MTV, Kenyon Review, NPR và Business Insider. Cô là người đồng dẫn chương trình Wow If True, một podcast về văn hóa internet, với tác giả khoa học viễn tưởng Isabel J. Kim. Trước khi gia nhập TechCrunch, cô từng là nhà tổ chức cấp cơ sở, nhà giáo dục bảo tàng và điều phối viên liên hoan phim. Cô ấy có bằng B.A. bằng tiếng Anh của Đại học Pennsylvania và từng là thành viên Princeton ở Châu Á tại Lào. Bạn có thể liên hệ hoặc xác minh hoạt động tiếp cận từ Amanda bằng cách gửi email tới [email protected] hoặc qua tin nhắn được mã hóa tại @amanda.100 trên Signal. Gợi ý thực hành: 1. Theo dõi thông báo từ cơ quan địa phương tại California. 2. Kiểm tra nguồn chính thức trước khi chia sẻ lại thông tin.

Tại sao AI của Google không thể đánh vần Google (hoặc bất cứ thứ gì khác)