Nội dung bài viết
AI khuếch tán phổ biến nhất trong việc tạo hình ảnh, nhưng nó có thể khiến văn bản xuất ra nhanh hơn nhiều. Một ngày khác, một mô hình AI khác của Google.
Lần này, Google DeepMind đã phát hành một thành viên mới của gia đình mô hình mở Gemma 4, nhưng về cơ bản nó khác với phần còn lại của dòng sản phẩm. DiffusionGemma không tạo ra kết quả đầu ra tuyến tính như hầu hết các mô hình AI.
Thay vào đó, nó có thể tạo ra toàn bộ khối văn bản song song. Google cho biết điều này giúp nó nhanh hơn và hiệu quả hơn khi chạy trên phần cứng cục bộ như Nvidia DGX hoặc GPU chơi game khiêm tốn.
Hầu hết các mô hình AI được thiết kế để có khả năng tự hồi quy—chúng tạo ra văn bản từ trái sang phải một mã thông báo mỗi lần. DiffusionGemma có nhiều điểm chung hơn với các mô hình tạo hình ảnh, bắt đầu bằng tĩnh và sau đó khử nhiễu để tạo ra nội dung mong muốn.
Mô hình này lấy một trường mã thông báo giữ chỗ chạy trên canvas nhiều lần để tạo mã thông báo có khả năng xảy ra và sử dụng những mã thông báo đó để cải thiện khả năng ước tính của những mã thông báo khác.
Khi kết thúc quá trình, mô hình hoàn thiện các đầu ra mã thông báo của nó trong một khối lớn—khung văn bản “đã được khử nhiễu”. DiffusionGemma khá lớn trong lĩnh vực mô hình mở của Google.
Đó là mô hình Hỗn hợp các chuyên gia (MoE) với tổng số 26 tỷ thông số , nhưng chỉ có 3,8 tỷ được kích hoạt trong quá trình suy luận. Điều đó có nghĩa là nó phải phù hợp với phân bổ RAM 18GB của GPU cao cấp.
Khi thử nghiệm với RTX 5090, DiffusionGemma tạo ra khoảng 700 mã thông báo mỗi giây. Chỉ với một bộ tăng tốc AI Nvidia H100 duy nhất, DiffusionGemma có thể tạo ra hơn 1.000 mã thông báo mỗi giây.
Đó là khoảng bốn lần sản lượng của các mô hình Gemma tự hồi quy có kích thước tương tự. Cách tiếp cận tạo văn bản này chuyển nút cổ chai từ băng thông bộ nhớ sang tính toán, tạo ra song song tối đa 256 mã thông báo.
Google cho biết điều này mang lại sự tăng cường có thể đo lường được trong các tác vụ phi tuyến tính như chỉnh sửa nội tuyến, giải trình tự phân tử và vẽ đồ thị toán học.
Hoạt ảnh ở trên cho thấy cách DiffusionGemma được điều chỉnh để giải các câu đố Sudoku, đây là một nhiệm vụ đầy thách thức đối với các mô hình AI tự hồi quy tiêu chuẩn vì mỗi mã thông báo phụ thuộc vào các mã thông báo trong tương lai.
Khả năng tự sửa liên tục các bộ mã thông báo lớn của DiffusionGemma giúp việc đó trở nên dễ dàng hơn. Nếu khả năng khuếch tán nhanh hơn rất nhiều, tại sao Google không sử dụng nó trong các mô hình Gemini lớn dựa trên đám mây?
Google đã thử nghiệm điều này nhưng có một số hạn chế đối với việc phổ biến văn bản, bao gồm tỷ lệ lỗi cao hơn. Trong các mô hình khuếch tán hình ảnh, một badl y pixel được dự đoán không làm cho hình ảnh trở nên vô dụng, nhưng ngôn ngữ thì rời rạc.
Một lỗi tương đương trong văn bản có thể làm cho một khối mã thông báo trở nên vô nghĩa và buộc bạn phải bắt đầu lại để có kết quả tốt hơn. Các mô hình khuếch tán cũng gây lãng phí tài nguyên khi đầu ra mong muốn chỉ dài một vài mã thông báo.
Họ phải thực hiện nhiều công việc song song hơn để giảm bớt, chẳng hạn như, năm mã thông báo mà một mô hình tự hồi quy thực hiện từ đầu đến cuối chỉ trong năm bước. Tuy nhiên, hiệu quả đạt được khi xử lý cục bộ khiến đây trở thành một con đường thử nghiệm hấp dẫn.
Trong đám mây, các mô hình tự hồi quy có thể xử lý số lượng lớn công việc điện toán từ nhiều người dùng để chúng luôn tạo ra mã thông báo và bộ nhớ băng thông cao (HBM) được sử dụng trong các hệ thống này có thể di chuyển dữ liệu hiệu quả hơn nhiều.
Ngược lại, AI cục bộ gặp phải các chu kỳ tính toán lãng phí do băng thông bộ nhớ thấp hơn và thời gian nhàn rỗi. Các mô hình phân tán có thể tận dụng hiệu quả hơn khả năng tính toán sẵn có nhưng đây không phải là cách duy nhất.
Gần đây, Google cũng đã bắt đầu triển khai các trình soạn thảo Dự đoán nhiều mã thông báo (MTP), sử dụng các chu trình tính toán lãng phí để dự đoán các mã thông báo có thể có nhằm tăng tốc độ. Nhưng mức độ khuếch tán thậm chí còn nhanh hơn các phiên bản MTP của Gemma.
Đi ogle nhấn mạnh rằng DiffusionGemma là phiên bản thử nghiệm nhưng nó có sẵn theo cùng giấy phép Apache 2.0 như tất cả các mẫu Gemma thế hệ thứ tư khác. Bạn có thể tải xuống mô hình trọng lượng ngay hôm nay từ Ôm Mặt.
Google cho biết họ đã làm việc với Nvidia để đảm bảo DiffusionGemma được tối ưu hóa cho nhiều thiết lập khác nhau, bao gồm GPU RTX cao cấp (lượng tử hóa) và các hệ thống doanh nghiệp như nền tảng H100 hoặc DGX Spark. Ars Technica đã tách tín hiệu khỏi tiếng ồn trong hơn 25 năm.
Với sự kết hợp độc đáo giữa hiểu biết về kỹ thuật và mối quan tâm sâu rộng đến nghệ thuật và khoa học công nghệ, Ars là nguồn đáng tin cậy trong biển thông tin. Suy cho cùng, bạn không cần phải biết mọi thứ, chỉ cần biết những gì quan trọng.
Gợi ý thực hành:
1. Theo dõi thông báo từ cơ quan địa phương tại California.
2. Kiểm tra nguồn chính thức trước khi chia sẻ lại thông tin.