Nội dung bài viết
Gemma 4 12B sử dụng sơ đồ mã hóa mới và dự đoán mã thông báo để vượt quá trọng lượng của nó. Sự bùng nổ của AI đã đẩy chi phí bộ nhớ lên cao và Google là một phần quan trọng trong xu hướng đó.
Vì vậy, điều phù hợp nhất là Google nên cung cấp một số mô hình AI cục bộ ít ngốn RAM hơn. Công ty đã công bố phát hành mẫu Gemma 4 mới nhằm lấp đầy khoảng trống trong dòng sản phẩm đã ra mắt vào đầu năm nay.
Model mới đủ hiệu quả để bạn có thể chạy nó trên một máy tính xách tay tiêu dùng khá trung bình. Vào tháng 4, Google đã phát hành bốn mô hình trong dòng Gemma 4, điều này cũng đánh dấu sự chuyển đổi sang giấy phép Apache 2.0 cởi mở hơn.
Các mô hình ban đầu bao gồm hai tùy chọn được tối ưu hóa cho thiết bị di động (E2B và E4B) cùng với một cặp mô hình dành cho công việc nghiêm túc hơn (26B Mixture of Experts và 31B Dense). Điều đó để lại một khoảng trống khá lớn chưa được giám sát ở giữa, đúng nơi mô hình mới rơi xuống.
Gemma 4 12B có khả năng cao hơn đáng kể so với các phiên bản di động, nhưng nó sẽ không yêu cầu bộ tăng tốc AI trị giá 20.000 USD để chạy cục bộ. Google cho biết Gemma 4 12B độc đáo ở chỗ nó có thể chạy trên nhiều máy tính xách tay tiêu dùng mà không làm giảm chất lượng.
Miễn là bạn có một máy tính có RAM hệ thống hoặc VRAM 16GB, Mô hình 12 tỷ tham số sẽ hoạt động. Đó là khoảng một nửa tổng dung lượng bộ nhớ của Gemma 4 26B MoE và Google tuyên bố mẫu mới này gần như có khả năng tương đương, ít nhất là theo tiêu chuẩn.
Google cho biết mô hình mới có khả năng suy luận nhiều bước phức tạp và quy trình làm việc tác nhân mà trước đây yêu cầu các biến thể Gemma lớn hơn.
Mặc dù số lượng tham số nhỏ hơn, Gemma 4 12B đi kèm với trình soạn thảo Dự đoán nhiều mã thông báo (MTP) mới được phát minh, tận dụng các chu kỳ xử lý chưa sử dụng để tính toán các mã thông báo có thể có trong tương lai. Kết quả là tốc độ và hiệu quả cao hơn.
Google đã phát hành phiên bản MTP tùy chọn của các mẫu Gemma 4 khác, nhưng đây là phiên bản đầu tiên có MTP. Gemma 4 12B cũng hiệu quả hơn nhờ cách tiếp cận mới về đa phương thức.
Dòng Gemma 4 vốn là đa phương thức, chấp nhận văn bản, âm thanh hoặc hình ảnh làm đầu vào. Hầu hết các mô hình AI thế hệ—bao gồm cả các biến thể Gemma 4 khác—sử dụng bộ mã hóa chuyên dụng để xử lý dữ liệu nhập không phải văn bản và chuyển dữ liệu đó đến LLM.
Điều này hoạt động đủ tốt nhưng nó làm tăng độ trễ và mức sử dụng bộ nhớ. Với mô hình có trọng lượng trung bình mới, Google đã triển khai mô-đun nhúng được sắp xếp hợp lý cho tầm nhìn, bao gồm m siêu âm và nhúng vị trí, cho phép dữ liệu truyền đến LLM với nhận thức không gian thích hợp.
Điều này giúp loại bỏ sự cần thiết của một bộ mã hóa trung gian cồng kềnh. Đối với âm thanh, không có mã hóa nào cả.
Các nhà phát triển đã tìm ra phương pháp chiếu tín hiệu âm thanh thô vào cùng các vectơ được sử dụng cho mã thông báo văn bản. Nếu bạn muốn xem mẫu Gemma 4 mới, bạn có thể truy cập mẫu này mà không cần tải xuống thông qua các công cụ như LM Studio , Google AI Edge Gallery , v.v.
Nhưng toàn bộ ý tưởng với Gemma 4 12B là bạn có thể chạy nó cục bộ và theo điều kiện của riêng mình. Nếu bạn có RAM, trọng lượng mô hình có sẵn để tải xuống ngay trên Kaggle và Ôm mặt.
Nó chỉ khoảng 18GB thôi. Ars Technica đã tách tín hiệu khỏi tiếng ồn trong hơn 25 năm.
Với sự kết hợp độc đáo giữa hiểu biết về kỹ thuật và mối quan tâm sâu rộng đến nghệ thuật và khoa học công nghệ, Ars là nguồn đáng tin cậy trong biển thông tin. Suy cho cùng, bạn không cần phải biết mọi thứ, chỉ cần biết những gì quan trọng.
Gợi ý thực hành:
1. Theo dõi thông báo từ cơ quan địa phương tại California.
2. Kiểm tra nguồn chính thức trước khi chia sẻ lại thông tin.