Blackwell là một kiến trúc GPU do NVIDIA phát triển, công bố năm 2024, được thiết kế đặc biệt cho trí tuệ nhân tạo quy mô lớn (AI at scale). Blackwell đã ghi nhận nhu cầu tăng vọt từ các công ty như Microsoft, Google, Amazon và Meta. Tuy nhiên, trọng tâm đang được chuyển dần sang thế hệ tiếp theo: hệ thống Vera Rubin. Hệ thống này đang thu hút sự chú ý lớn vì Nvidia cho rằng nó có thể giải quyết một trong những nút thắt lớn nhất của hạ tầng AI hiện nay: hiệu suất năng lượng.
Trong bài viết lần này, ban biên tập technologyMAG chia sẻ video của kênh CNBC, nói về kiến trúc hạ tầng AI thế hệ mới từ NVIDIA.
Để xem và hiểu đầy đủ nội dung của video (bằng tiếng Anh), Quý độc giả vui lòng tham khảo nội dung của bài viết. Để xem video ở chế độ toàn màn hình (full-screen), vui lòng nhấn vào khung [ ] tại góc phải phía dưới của video hoặc nhấn phím F.
Theo Nvidia, Vera Rubin có thể mang lại hiệu năng trên mỗi watt cao hơn khoảng mười lần so với Blackwell. Để đạt được điều này, hệ thống không chỉ đơn thuần là các con chip mà là một tổ hợp phức tạp gồm khay tính toán (compute tray), khung máy (chassis), thanh ray bên (side rail), thanh dẫn điện (busbar) và hàng loạt thành phần liên kết khác, với tổng cộng khoảng 1,3 triệu linh kiện từ hơn 80 nhà cung cấp trên hơn 20 quốc gia.
Vera Rubin hiện đã bước vào sản xuất hàng loạt và dự kiến bắt đầu giao hàng trong năm nay, dù vẫn tồn tại các rủi ro như thiếu hụt bộ nhớ và áp lực từ chuỗi cung ứng chịu ảnh hưởng bởi thuế quan. Dù vậy, Nvidia cho biết nhu cầu vẫn rất cao và khách hàng sẵn sàng triển khai ngay nếu có thêm hệ thống.
Kiến trúc Blackwell và sự thay đổi mô hình hạ tầng AI Khi Nvidia giới thiệu thiết kế rack Blackwell vào năm 2024, nhu cầu đã tăng mạnh đến mức giá cổ phiếu của NVIDIA đã tăng hơn 100% ngay cả trước khi công bố chính thức. Nguyên nhân là vì hệ thống này đã thay đổi cách xây dựng hạ tầng AI. Blackwell áp dụng kiến trúc rack-scale (1) hoàn chỉnh, tách rời tài nguyên tính toán, mạng và bộ nhớ nhưng vẫn cho phép chúng hoạt động như một GPU thống nhất. (1) Rack-scale là một khái niệm trong thiết kế hệ thống (đặc biệt là trung tâm dữ liệu hoặc hạ tầng trí tuệ nhân tạo), dùng để chỉ việc coi toàn bộ một rack máy chủ như một đơn vị tính toán hoàn chỉnh, thay vì từng server riêng lẻ.
Trước đây, hệ thống máy tính thường được xây dựng theo kiểu rời rạc, doanh nghiệp mua máy chủ, thiết bị chuyển ngạch và hệ thống làm mát riêng lẻ. Blackwell đã thay đổi điều đó bằng cách tích hợp tất cả vào một rack duy nhất, tối ưu cho hiệu suất và hiệu quả. Hệ thống Grace Blackwell bao gồm 72 GPU, gần 800 chip khác và khoảng 1,2 triệu linh kiện được sản xuất tại khoảng 350 nhà máy.
Chuỗi cung ứng trải dài toàn cầu với các đối tác như TSMC chế tạo chip, Foxconn lắp ráp rack, Delta Electronics cung cấp thành phần làm mát bằng chất lỏng. Các nhà cung cấp khác bao gồm Amphenol cho thiết bị kết nối, Vertiv cho hệ thống phân phối làm mát. Do mạng lưới này trải rộng từ Trung Quốc, Israel, Mexico, Mỹ, Việt Nam đến Thái Lan, Nvidia đã xây dựng một thiết kế tham chiếu tiêu chuẩn để đảm bảo khả năng tương thích giữa các nhà cung cấp.
Hệ sinh thái này bao gồm các module cấp nguồn, hệ thống nguồn điện, khung máy, thanh cái phân phối điện, cụm phân phối chất làm mát, tấm làm mát trực tiếp và hệ thống dây nguồn từ nhiều nhà sản xuất khác nhau. Dù phức tạp, Blackwell vẫn trong tình trạng “cháy hàng”, với hàng nghìn rack được sản xuất mỗi tuần.
Vera Rubin – bước nhảy vọt về quy mô và hiệu năng Tiếp nối Blackwell, Vera Rubin đại diện cho bước tiến lớn tiếp theo trong tính toán AI rack-scale. Một cụm Rubin (Rubin pod) (2) gồm 16 rack với tổng cộng 1.152 GPU. So với Blackwell, hệ thống này có thêm khoảng 100.000 linh kiện và tiêu thụ điện năng gấp đôi, nhưng mang lại năng lực tính toán vượt trội, đặc biệt trong việc tạo token cho các tác vụ AI. (2) Pod là một đơn vị triển khai ở cấp cao hơn rack, bao gồm nhiều rack được kết nối và vận hành như một hệ thống thống nhất.
Để đạt được điều này, Nvidia đã thiết kế lại toàn bộ sáu chip lõi. CPU Vera đạt hiệu suất trên mỗi watt gấp đôi thế hệ trước đó, trong khi GPU Rubin đạt khoảng 50 petaflop hiệu năng AI (3), cao hơn khoảng 2,5 lần. Mỗi rack có 18 khay tính toán, mỗi khay chứa hai superchip Vera Rubin (4). Mỗi superchip gồm một CPU, hai GPU và nhiều thành phần hỗ trợ, tổng cộng khoảng 17.000 linh kiện. (3) Petaflop là đơn vị đo hiệu năng tính toán, dùng để chỉ số lượng phép tính mà một hệ thống có thể thực hiện mỗi giây. (4) Superchip là một thuật ngữ trong ngành bán dẫn, dùng để chỉ một module tích hợp nhiều chip (CPU, GPU…) được kết nối cực nhanh và hoạt động như một “con chip duy nhất”.
Một thay đổi quan trọng là bộ nhớ SoCAMM dạng module có thể tháo lắp, thay vì hàn cố định như trước. Ngoài ra, mỗi GPU sử dụng tám cụm HBM4 – bộ nhớ băng thông cao thế hệ mới từ SK Hynix và Samsung. Dù nguồn cung HBM4 còn hạn chế, Nvidia cho biết họ đã phối hợp chặt chẽ với chuỗi cung ứng và cung cấp dự báo chi tiết để đảm bảo đáp ứng sản xuất.
Làm mát và tiêu thụ năng lượng trong hệ thống quy mô lớn Quản lý nhiệt là thách thức lớn do mức tiêu thụ điện rất cao. Các triển khai Blackwell ban đầu từng gặp vấn đề quá nhiệt, nhưng nguyên nhân chủ yếu là lỗi triển khai như lắp đặt van làm mát sai, chứ không phải do thiết kế. Những vấn đề này hiện đã được khắc phục.
Vera Rubin chuyển sang kiến trúc làm mát hoàn toàn bằng chất lỏng, không còn quạt, dây hoặc ống trong khay tính toán. Điều này yêu cầu trung tâm dữ liệu phải có hệ thống làm mát chất lỏng có thể sẵn sàng hoạt động. Làm mát được thực hiện bằng tấm làm mát (cold plate) dẫn nước trực tiếp qua CPU và GPU. Đáng chú ý, hệ thống này có thể giảm lượng nước tiêu thụ nhờ sử dụng vòng kín thay vì làm mát bay hơi.
Mỗi rack tiêu thụ khoảng 220 kW điện, buộc Nvidia phải thiết kế lại hệ thống cấp nguồn. Tuy nhiên, hiệu suất không chỉ phụ thuộc vào năng lượng và làm mát mà còn phụ thuộc vào tốc độ giao tiếp giữa các GPU.
NVLink và kiến trúc kết nối nội bộ Để đảm bảo các GPU hoạt động như một hệ thống thống nhất, Nvidia sử dụng công nghệ NVLink. Chip NVLink Switch tăng gấp đôi tốc độ truyền dữ liệu từ 1,8 TB/s lên 3,6 TB/s. Trong mỗi rack, chín khay NVLink kết nối toàn bộ 72 GPU, cho phép truyền dữ liệu lên đến 260 TB/s.
Hệ thống kết nối này được tổ chức qua một trục NVLink (NVLink spine) chạy dọc phía sau rack, liên kết mọi thành phần bằng khoảng 5.000 dây đồng với tổng chiều dài khoảng hai dặm. Mỗi dây được bố trí chính xác để đảm bảo kết nối đúng vị trí.
Ngoài ra, hệ thống còn tích hợp dòng DPU BlueField (5) cho lưu trữ và bảo mật, cùng bộ điều khiển mạng ConnectX-9 từ Mellanox – công ty mà Nvidia đã mua lại với giá gần 7 tỷ USD. Khi mở rộng quy mô lên cấp trung tâm dữ liệu, hàng nghìn rack được kết nối thành “nhà máy AI” thông qua các rack mạng riêng sử dụng thiết bị chuyển ngạch Spectrum-X. (5) DPU (Data Processing Unit) là một loại bộ xử lý chuyên dụng trong data center, được thiết kế để xử lý các tác vụ hạ tầng như mạng, lưu trữ và bảo mật – thay vì để CPU phải làm tất cả.
Chi phí, bảo trì và hiệu quả kinh tế Một rack Vera Rubin nặng gần hai tấn, chứa khoảng 1.300 chip với tổng cộng 220 nghìn tỷ transistor. Dù phức tạp, hệ thống lại dễ bảo trì hơn so với Blackwell. Khay tính toán có thể tháo lắp trong vài giây, thay vì mất đến hai giờ và cần dụng cụ như trước.
Chi phí đầu tư ban đầu cao hơn, với ước tính khoảng 3,5 đến 4 triệu USD mỗi rack, tăng khoảng 25 phần trăm so với Blackwell. Tuy nhiên, chi phí trên mỗi token lại thấp hơn khoảng mười lần, giúp cải thiện đáng kể hiệu quả kinh tế.
Chuỗi cung ứng vẫn đối mặt với thách thức từ thuế quan và biến động giá linh kiện. Nvidia mô tả việc quản lý này giống như trò “đập chuột” – vấn đề có thể xuất hiện ở nhiều điểm khác nhau. Tuy nhiên, nhu cầu mạnh giúp đảm bảo khả năng duy trì nguồn cung. Công ty cũng đang thúc đẩy sản xuất nội địa tại Mỹ, với kế hoạch đạt 500 tỷ USD hạ tầng AI vào năm 2029, bao gồm sản xuất chip tại Arizona và lắp ráp tại Mỹ, Đài Loan và Mexico.
Cạnh tranh, hệ sinh thái và tương lai kiến trúc AI Khi Vera Rubin bắt đầu giao hàng vào nửa cuối năm 2026, nó sẽ không thay thế hoàn toàn Blackwell mà hoạt động song song cho các tác vụ khác nhau. Nvidia khuyến khích khách hàng nâng cấp theo chu kỳ hàng năm vì mỗi thế hệ đều cải thiện đáng kể.
Cạnh tranh cũng đang gia tăng khi công ty AMD chuẩn bị ra mắt hệ thống Helios, trong khi các khách hàng lớn như Amazon, Google, Microsoft và Meta đều phát triển chip AI riêng. AWS đã triển khai hệ thống với chip Trainium 2, còn Google sử dụng TPU nội bộ. Tuy vậy, các công ty này vẫn tiếp tục sử dụng nền tảng Nvidia do lợi thế về hiệu năng và hệ sinh thái.
Trong tương lai, Nvidia đã giới thiệu nguyên mẫu kiến trúc Kyber với khả năng hỗ trợ 288 GPU – gấp bốn lần hiện tại, trong khi trọng lượng chỉ tăng khoảng 50 phần trăm nhờ giảm dây kết nối và tăng tích hợp. Kiến trúc này sẽ được sử dụng trong hệ thống Vera Rubin Ultra dự kiến ra mắt năm 2027.
Mục tiêu dài hạn là giảm điểm kết nối, giảm rủi ro hỏng hóc và tăng mức độ tích hợp. Điều này không chỉ giúp hệ thống nhanh hơn mà còn giảm tổng chi phí sở hữu. Khi nhiều GPU có thể hoạt động với độ trễ cực thấp trong cùng một rack, trải nghiệm AI sẽ được cải thiện đáng kể, từ đó thúc đẩy nhu cầu hạ tầng AI tiếp tục tăng trong tương lai.
Kết luận Từ Blackwell đến Vera Rubin, Nvidia không chỉ nâng cấp phần cứng mà đang tái định nghĩa cách hạ tầng AI được thiết kế – từ các hệ thống rời rạc sang những “nhà máy AI” tích hợp chặt chẽ ở cấp độ rack và trung tâm dữ liệu. Sự kết hợp giữa hiệu năng tính toán, hiệu suất năng lượng và kiến trúc kết nối tốc độ cao đang trở thành yếu tố quyết định, thay vì chỉ đơn thuần là số lượng GPU.
Trong bối cảnh nhu cầu AI tiếp tục tăng mạnh, hướng đi của Nvidia cho thấy một xu thế rõ ràng – tăng mật độ tính toán, giảm độ trễ, tối ưu hiệu quả trên mỗi watt và mỗi USD đầu tư. Nếu các thế hệ tiếp theo như Vera Rubin Ultra và kiến trúc Kyber đạt được kỳ vọng, cuộc cạnh tranh sẽ không còn xoay quanh chip đơn lẻ mà chuyển sang năng lực xây dựng toàn bộ hệ sinh thái hạ tầng AI ở quy mô chưa từng có.
Để xem các tin bài khác về “Chip AI”, hãy nhấn vào đây.
Nguồn: CNBC