Nội dung bài viết
Thế hệ chip Tensor AI mới của Google thực chất là hai chip, một dành cho suy luận và một dành cho đào tạo. Hầu hết các công ty đã cam kết hoàn toàn việc xây dựng các mô hình AI đang tận dụng mọi công cụ tăng tốc AI của Nvidia mà họ có thể có, nhưng Google đã thực hiện một cách tiếp cận khác.
Hầu hết cơ sở hạ tầng AI trên nền tảng đám mây của họ đều dựa trên dòng đơn vị xử lý Tensor (TPU) tùy chỉnh. Sau khi công bố Ironwood TPU thế hệ thứ bảy vào năm 2025, công ty đã chuyển sang phiên bản thế hệ thứ tám, nhưng nó không chỉ là sự lặp lại nhanh hơn của cùng một con chip.
Công ty cho biết TPU mới có hai loại, cung cấp cho Google và khách hàng của họ nền tảng AI nhanh hơn và hiệu quả hơn. Google đang thúc đẩy ý tưởng rằng “kỷ nguyên tác nhân” về cơ bản khác với các hệ thống AI trước đây, đòi hỏi một cách tiếp cận mới đối với phần cứng.
Vì vậy, các kỹ sư đã nghĩ ra TPU8t (dành cho đào tạo) và TPU 8i (dành cho suy luận). Trước khi các mô hình AI trở thành thứ bạn có thể sử dụng để phân tích dữ liệu hoặc tạo ra các meme ngớ ngẩn, chúng cần được đào tạo.
TPU 8t được thiết kế dành riêng cho phần này của vòng đời AI để giảm thời gian đào tạo cho các mô hình AI tiên phong từ hàng tháng xuống hàng tuần. Đã cập nhật máy chủ Tensor 8t các cụm mà Google gọi là “nhóm”, hiện chứa 9600 chip với 2 petabyte bộ nhớ băng thông cao dùng chung.
Google tuyên bố TPU 8t thậm chí có thể mở rộng tuyến tính, với tối đa một triệu chip trong một cụm logic duy nhất. Những cải tiến như thế này đang giúp các mô hình AI cỡ lớn nhanh hơn nhiều, đồng thời đẩy giá RAM cho những người khác tăng cao.
Nhưng nếu bạn tham gia vào việc xây dựng những mô hình AI khổng lồ đó, tất cả phần cứng này sẽ tiết kiệm thời gian với tốc độ tính toán ấn tượng 121 FP4 EFlop trên mỗi nhóm. Con số này cao hơn gần gấp ba lần so với trần điện toán đào tạo của Ironwood.
Vì vậy, các chip mới cho phép đào tạo nhanh hơn, nhưng Google cũng cho biết bạn sẽ có được khả năng tính toán hữu ích hơn cho mỗi volt bạn bơm vào TPU 8t. Công ty tuyên bố tỷ lệ “tốt” là 97%, nghĩa là ít phải chờ đợi và lãng phí công sức hơn.
Với khả năng xử lý tốt hơn việc truy cập bộ nhớ không thường xuyên, tự động xử lý các lỗi phần cứng và đo từ xa theo thời gian thực trên tất cả các chip được kết nối, TPU 8t dành nhiều thời gian hơn để tích cực nâng cao việc đào tạo mô hình.
Khi quá trình đào tạo hoàn tất, các mô hình AI sẽ chạy ở chế độ suy luận để tạo ra mã thông báo—đó là quá trình diễn ra ngầm khi bạn yêu cầu một mô hình làm điều gì đó. Điều này không đòi hỏi nhiều mã lực, vì vậy sử dụng t Phần cứng giống nhau cho cả hai phần của vòng đời AI đều không hiệu quả.
Đó là lý do tại sao suy luận là mục đích của TPU 8i, được thiết kế để hoạt động hiệu quả hơn khi chạy nhiều tác nhân chuyên biệt với thời gian chờ đợi ít hơn. Chip TPU 8i cũng chạy trong nhóm lớn hơn gồm 1.152 chip so với chỉ 256 chip của cụm suy luận Ironwood thế hệ mới nhất.
Hiệu suất đạt tới 11,6 EFlops trên mỗi nhóm, thấp hơn nhiều so với nhóm TPU 8t. Google đã tăng gấp ba lần dung lượng SRAM trên chip cho mỗi TPU 8i lên 384 MB.
Điều này cho phép các chip mới của công ty giữ bộ đệm giá trị khóa lớn hơn trên chip, tăng tốc các mô hình có cửa sổ ngữ cảnh dài hơn. Bộ tăng tốc AI thế hệ thứ tám cũng là bộ tăng tốc đầu tiên của Google chỉ dựa vào máy chủ CPU Axion ARM tùy chỉnh của Google, có một CPU cho mỗi hai TPU.
Trong Ironwood, mỗi CPU x86 phục vụ bốn chip TPU. Google cho biết cách tiếp cận dựa trên ARM “đầy đủ” này mang lại hiệu quả cao hơn nhiều.
Điều hợp lý là hiệu quả là một phần cốt lõi trong thiết lập TPU mới của Google. Việc đào tạo và chạy các mô hình AI tiên tiến rất tốn kém và lợi tức đầu tư không rõ ràng.
Các công ty vẫn đang đốt tiền vào AI sáng tạo với hy vọng rằng hiệu quả sẽ thay đổi vào một thời điểm nào đó. Có lẽ TP mới của Google Chúng tôi sẽ giúp đạt được điều đó và có thể không, nhưng công ty đã có những cải tiến đáng chú ý.
Các hệ thống AI sáng tạo tiêu thụ rất nhiều năng lượng, điều này thường được coi là một trong những lý do chính khiến người dùng không sử dụng chúng. TPU thế hệ thứ 8 không hẳn là tiêu hao năng lượng, nhưng Google tuyên bố các con chip này mang lại hiệu suất trên mỗi watt gấp đôi so với Ironwood.
Google cũng khuyến khích những cải tiến trong trung tâm dữ liệu của mình, dường như được “đồng thiết kế” với TPU. Các tính năng như tích hợp mạng với điện toán trên một con chip và bố trí nhóm hiệu quả hơn được cho là đã tăng sức mạnh tính toán trên mỗi đơn vị điện lên gấp sáu lần.
Tất nhiên, điều đó không có nghĩa là các trung tâm dữ liệu sẽ sử dụng ít năng lượng hơn, chỉ là chúng có khả năng tính toán cao hơn với toàn bộ năng lượng mà chúng sử dụng. Việc sử dụng nước để làm mát trung tâm dữ liệu cũng là một mối quan tâm lớn về hiệu quả.
Nhiệt sinh ra do yêu cầu tính toán dày đặc của máy chủ AI không thể tản đi bằng không khí, vì vậy làm mát bằng chất lỏng là cách duy nhất.
Google đã điều chỉnh thiết lập làm mát bằng chất lỏng thế hệ thứ tư cho phù hợp với các chip mới, sử dụng các van được điều khiển tích cực để điều chỉnh lưu lượng nước dựa trên khối lượng công việc. Một lần nữa, điều này được cho là hiệu quả hơn.
TPU 8t và TPU 8i sẽ cung cấp năng lượng cho các đại lý có trụ sở tại ... Đúng vậy, nhưng chúng cũng được thiết kế dành cho các nhà phát triển bên thứ ba.
Cả hai TPU mới đều hỗ trợ các khung mà các nhà phát triển đã sử dụng, bao gồm JAX, MaxText, PyTorch, SGLang và vLLM. Giá cổ phiếu của Nvidia đã nhanh chóng giảm khoảng 1,5% sau thông báo của Google, nhưng sau đó đã phục hồi và lại ở mức trên 200 USD/cổ phiếu.
Nhu cầu ngày càng tăng về máy tăng tốc AI đã khiến giá trị của Nvidia tăng hơn gấp đôi trong năm qua và lợi nhuận của Google thậm chí còn lớn hơn. Đó là bản chất của bong bóng AI tiềm năng.
Tất nhiên, các công ty được hưởng lợi nhiều nhất không coi đó là bong bóng, họ coi đây là sự khởi đầu cho một tương lai AI tự động. Ars Technica đã tách tín hiệu khỏi tiếng ồn trong hơn 25 năm.
Với sự kết hợp độc đáo giữa hiểu biết về kỹ thuật và mối quan tâm sâu rộng đến nghệ thuật và khoa học công nghệ, Ars là nguồn đáng tin cậy trong biển thông tin. Suy cho cùng, bạn không cần phải biết mọi thứ, chỉ cần biết những gì quan trọng.
Gợi ý thực hành:
1. Theo dõi thông báo từ cơ quan địa phương tại California.
2. Kiểm tra nguồn chính thức trước khi chia sẻ lại thông tin.