PHÁP – Công nghệ trí tuệ nhân tạo (AI) là một bước đột phá về phần mềm. Tuy nhiên, trên thực tế, đây còn là một thách thức lớn về cơ sở hạ tầng và năng lượng. Một câu lệnh AI có thể tiêu thụ điện năng gần 10 lần so với một truy vấn tìm kiếm internet thông thường, và nhu cầu này đang tăng vọt. Dự báo đến năm 2030, các trung tâm dữ liệu sẽ chiếm gần 3% lượng tiêu thụ điện trên thế giời, gần gấp đôi tỷ trọng hiện nay và tăng trưởng nhanh hơn so với nhu cầu điện từ tất cả các lĩnh vực khác.
Mức độ nhu cầu đó mang lại một rào cản thực tế: nhiệt độ.
Bài viết được chia sẻ bởi ông Farokh Ghadially, Phó Chủ tịch bộ phận công nghệ thông tin và trung tâm dữ liệu, tập đoàn Schneider Electric.
Cơ sở hạ tầng công nghệ AI đang trở nên dày đặc hơn, tiêu thụ điện nhiều hơn và có cường độ nhiệt cao hơn so với các hệ thống mà trung tâm dữ liệu vốn được thiết kế để hỗ trợ trước đây. Những hệ thống làm mát từng vận hành ổn định giờ đây dần chạm tới giới hạn chịu đựng.
Sự chuyển đổi sang cơ sở hạ tầng làm mát bằng chất lỏng mật độ cao Khối lượng công việc AI đang đẩy mật độ công suất trên mỗi tủ rack (*) (lượng điện năng tiêu thụ trên mỗi tủ rack) lên cao. Trong khi các máy chủ doanh nghiệp truyền thống chỉ tiêu thụ vài kilowatt mỗi tủ rack, các hệ thống tăng tốc bằng bộ xử lý đồ họa (GPU) hiện đại lại vận hành ở mức cao hơn đáng kể. Ngày nay, các tủ rack lắp đầy các bộ GPU tiêu thụ gần 132 kW điện. Thế hệ hệ thống tiếp theo dự kiến sẽ tiêu thụ năng lượng ở mức 240 kW mỗi tủ rack, và lộ trình của ngành công nghiệp này đã bắt đầu nghiên cứu các mật độ tương lai đến 1 mW mỗi tủ rack. (*) Tủ rack (hay còn gọi là tủ mạng, tủ server): là một loại tủ tiêu chuẩn được thiết kế đặc biệt để chứa và bảo vệ các thiết bị công nghệ thông tin (IT) như máy chủ (server), thiết bị lưu trữ, bộ chuyển mạch (switch), modem và các thiết bị viễn thông khác.
Các hệ thống này dựa vào các bộ GPU và các bộ tăng tốc (accelerator) (*) chuyên dụng, vốn tạo ra lượng nhiệt tập trung lớn. Việc luân chuyển đủ lượng khí qua các tủ rack ở quy mô này nhanh chóng trở nên kém hiệu quả và khó kiểm soát. (*) Accelerator: là thuật ngữ dùng để chỉ các thành phần phần cứng được thiết kế nhằm xử lý một nhóm tác vụ cụ thể nhanh hơn đáng kể so với CPU.
Trong nhiều thập kỷ, làm mát bằng không khí là phương pháp tiêu chuẩn trong các trung tâm dữ liệu. Nó vẫn phát huy hiệu quả ở mật độ trung bình, nhưng cơ sở hạ tầng công nghệ AI đang vượt xa các ngưỡng đó.
Làm mát bằng chất lỏng đã thay đổi hoàn toàn vấn đề này. Thay vì làm mát không khí xung quanh, phương pháp làm mát bằng chất lỏng trực tiếp lên chip (direct-to-chip) sẽ thu giữ nhiệt ngay tại nguồn. Vì chất lỏng truyền nhiệt hiệu quả hơn nhiều so với không khí, sự khác biệt về hiệu suất là rất lớn. Làm mát bằng chất lỏng trực tiếp có thể hiệu quả hơn gấp hàng nghìn lần trong việc loại bỏ nhiệt từ các linh kiện mật độ cao.
Khi các hệ thống AI tiếp tục mở rộng quy mô, cách tiếp cận này đang dần trở thành một yêu cầu tất yếu thay vì chỉ là một giải pháp tối ưu hóa đơn thuần.
Làm mát bằng chất lỏng ở quy mô lớn: phương pháp bền vững Làm mát thường là yếu tố tiêu thụ năng lượng lớn thứ hai trong trung tâm dữ liệu, chỉ sau chính thiết bị công nghệ thông tin. Do đó, việc cải thiện hiệu suất làm mát có tác động trực tiếp đến tổng nhu cầu điện năng. Trong nhiều trường hợp, làm mát bằng chất lỏng có thể giảm mức tiêu thụ năng lượng làm mát từ 30 đến 60%. Những lợi ích này chuyển hóa thành chi phí vận hành thấp hơn và giảm lượng khí thải, đặc biệt là ở những khu vực mà lưới điện vẫn còn phụ thuộc nhiều vào nhiên liệu hóa thạch.
Việc sử dụng nước là một yếu tố khác đáng được chú ý hơn.
Các tháp giải nhiệt truyền thống và hệ thống bay hơi có thể tiêu thụ một lượng nước lớn, đặc biệt là ở những vùng khí hậu ấm áp. Ngược lại, làm mát bằng chất lỏng vận hành theo một vòng tuần hoàn khép kín ở cấp độ tủ rack, nghĩa là bản thân các tủ rack không tiêu thụ nước trực tiếp. Khi đó, tổng “water footprint” (dấu chân nước) của toàn hệ thống sẽ phụ thuộc phần lớn vào cách thức nhiệt được thải ra khỏi cơ sở hạ tầng.
Đây là lúc thiết kế hệ thống trở nên vô cùng quan trọng.
Việc vận hành ở nhiệt độ chất lỏng đầu vào cao hơn có thể giảm mức tiêu thụ năng lượng lẫn lượng nước sử dụng. Các hệ thống thải nhiệt cũng đóng một vai trò quan trọng. Ví dụ, máy làm lạnh giải nhiệt bằng không khí (air-cooled chillers) có chế độ tiết kiệm năng lượng sẽ tận dụng không khí mát từ môi trường để tản nhiệt, giúp giảm bớt sự phụ thuộc vào các tháp giải nhiệt tốn nước.
Việc lựa chọn các linh kiện cũng rất quan trọng. Máy bơm hiệu suất cao, bộ trao đổi nhiệt bền bỉ và hệ thống điều khiển phối hợp nhịp nhàng giúp giảm năng lượng vận hành, đồng thời kéo dài tuổi thọ thiết bị và giảm lượng carbon tích tụ (embodied carbon) (*) phát sinh từ việc sản xuất các thiết bị thay thế. (*) Embodied carbon: là một khái niệm quan trọng trong kiến trúc, xây dựng và sản xuất công nghiệp, dùng để chỉ tổng lượng khí thải nhà kính (chủ yếu là CO2) phát sinh trong suốt vòng đời của một vật liệu hoặc sản phẩm trước khi nó được đưa vào sử dụng.
Thiết kế vì sự bền vững: những quyết định quan trọng ảnh hưởng đến trung tâm dữ liệu AI Áp dụng làm mát bằng chất lỏng là một bước đi quan trọng, nhưng tự thân nó là chưa đủ. Sự bền vững của cơ sở hạ tầng AI cuối cùng phụ thuộc vào cách các cơ sở này được thiết kế và vận hành. Có nhiều yếu tố khác nhau sẽ ảnh hưởng đến kết quả cuối cùng.
Làm mát bằng chất lỏng cũng giúp việc tái sử dụng nhiệt trở nên khả thi hơn.
Các cơ sở làm mát bằng không khí thường thải ra lượng nhiệt có nhiệt độ tương đối thấp, rất khó để tận dụng cho mục đích khác. Tuy nhiên, các hệ thống làm mát bằng chất lỏng tạo ra dòng nhiệt có nhiệt độ cao hơn, có thể tái sử dụng cho các hệ thống sưởi khu vực hoặc các quy trình công nghiệp lân cận. Mặc dù vẫn còn mới mẻ tại nhiều thị trường, phương pháp này mở ra phương hướng để các trung tâm dữ liệu đóng góp ngược lại nguồn năng lượng cho hệ sinh thái địa phương, thay vì chỉ đơn thuần là thải bỏ nó ra môi trường.
Một kế hoạch chi tiết để đảm bảo cơ sở hạ tầng AI đáp ứng được nhu cầu trong tương lai Việc chuyển dịch sang làm mát bằng chất lỏng cần lập kế hoạch và phối hợp một cách tinh tế. Trước đây, các quyết định về phần cứng và thiết kế hạ tầng thường diễn ra tách biệt. Trong thời đại công nghệ AI, các quy trình này phải được thực hiện song song. Nếu không, các tổ chức sẽ đối mặt với rủi ro lắp đặt những phần cứng AI mạnh mẽ mà cơ sở hạ tầng hiện có không thể hỗ trợ một cách tương xứng.
Tính linh hoạt: Các thế hệ phần cứng đang được cải tiến một cách nhanh chóng, và các cơ sở dữ liệu phải có khả năng đáp ứng các nhu cầu mật độ công suất khác nhau theo thời gian. Các môi trường hỗn hợp (hybrid) kết hợp giữa làm mát bằng không khí và làm mát bằng chất lỏng đang ngày càng trở nên phổ biến, cho phép các nhà vận hành duy trì các khối lượng công việc hiện tại trong khi chuẩn bị sẵn sàng cho các hệ thống tương lai.
Sự hợp tác sớm trong toàn bộ hệ sinh thái công nghệ: Các nhà vận hành trung tâm dữ liệu, nhà sản xuất máy chủ, chuyên gia làm mát và các đối tác hạ tầng đều mang đến những đóng góp chuyên môn khác nhau. Việc kết nối với các đối tác này ngay từ đầu giúp tránh được việc thiết kế lại, gây tốn kém, và đảm bảo hệ thống vận hành đúng như mục tiêu sau khi triển khai.
Kết luận: hệ thống làm mát hiệu quả là nhiệm vụ quan trọng trong thời đại công nghệ AI Công nghệ AI sẽ tái định hình các ngành công nghiệp và nền kinh tế trong những năm tới. Nhưng sự tăng trưởng của nó sẽ phụ thuộc vào cơ sở hạ tầng nhiều như vào các thuật toán.
Hệ thống làm mát có thể không thu hút được sự chú ý như các dòng chip hay các mô hình AI, nhưng nó đang nhanh chóng trở thành một trong những thách thức kỹ thuật mang tính quyết định của công nghệ AI trong tương lai.
Để xem các tin bài khác về “Hệ thống làm mát”, hãy nhấn vào đây.
Nguồn: Electronics Online