谷歌概述了新的 AI 資料中心基礎設施,該基礎設施配備 +/-400 VDC 電源和液體冷卻,可處理 1MW 機架和不斷上升的熱負荷。
在 2025年OCP EMEA高峰會,Google就支援現代資料中心的實體基礎架構發布了重要公告。訊息很明確:隨著人工智慧工作負載的擴大,電力、冷卻和機械系統的能力也必須隨之擴大。
人工智慧對權力的無限渴望已不再只是理論上的。谷歌預計,到 2030 年,機器學習部署將需要每個 IT 機架超過 500 kW 的電力。這種激增是由對更高機架密度的不斷追求所驅動的,其中每一毫米都擠滿了緊密互連的「xPU」(GPU、TPU、CPU)。為了滿足這些要求,需要對電力分配進行根本性的轉變:更高電壓的直流解決方案,將電源組件和備用電池移到機架外。伴隨這種轉變而來的是新的行業流行語。
供電
谷歌的首次重大公告回顧了十年來資料中心電力傳輸的進展。十年前,Google率先在 IT 機架內採用 48 VDC,與傳統的 12 VDC 標準相比,配電效率大幅提升。業界對此作出了回應,將機架功率從 10 kW 擴大到 100 kW。從 48 伏特直流電 (VDC) 到新的 +/-400 VDC 的轉變使得 IT 機架可以從 100 千瓦擴展到 1 兆瓦。
魔鬼山計畫是 Meta、微軟和 OCP 社群之間的合作成果,旨在標準化 400 VDC 的電氣和機械介面。這種電壓選擇不是任意的;它利用為電動車建造的強大供應鏈,實現規模經濟、精簡製造並提高品質。
+/-400 VDC 電力傳輸:交流轉直流側車電源架
第一個實際的成果是交流到直流的側車電源機架,它將電源組件與 IT 機架分開。這種架構使端到端效率提高了約 3%,並釋放了整個機架用於計算硬體。展望未來,Google及其合作夥伴正在探索整個資料中心的直接高壓直流配電,以實現更高的密度和效率。
熱挑戰
隨著晶片功耗飆升(從 100W 的 CPU 到超過 1,000W 的加速器),熱管理已變得至關重要。業界掀起了一波創新浪潮,但挑戰也顯而易見:更高的晶片密度意味著更高的冷卻需求。
液體冷卻已成為唯一可行的大規模解決方案。水的熱性能無與倫比:它每單位體積攜帶的熱量比空氣高出約 4,000 倍,導熱係數高出 30 倍。谷歌已經部署了千兆瓦規模的液體冷卻系統,在過去七年中支援了超過 2,000 個 TPU Pod,正常運行時間達到了令人印象深刻的 99.999%。液冷伺服器的體積約為風冷伺服器的一半,並用冷板取代了笨重的散熱器。這使得Google的液冷 TPU v3 超級電腦的晶片密度比風冷 TPU v2 世代提高了一倍,規模提高了四倍。
Deschutes CDU 專案:第四代正在部署,第五代尚在概念階段
從 TPU v3 到 TPU v5,再到現在 鐵木之後,Google的方法已發展為使用行內冷卻液分配單元 (CDU)。這些 CDU 將機架液體迴路與設施迴路隔離,提供受控的高性能冷卻環境。 Deschutes 專案是 Google 的 CDU 架構,具有冗餘泵浦和熱交換器,自 99.999 年以來實現了 2020% 的可用性。
StorageReview 從一開始就追蹤了液體冷卻的發展,涵蓋了以下創新者 冷卻, 潛水器, 捷酷和 DUG游牧民族.
加速產業採用
今年晚些時候,谷歌將貢獻 德舒特斯基民盟項目 與 OCP 分享系統細節、規格和最佳實踐,以加速大規模採用液體冷卻。該貢獻將包括增強冷卻性能、製造品質、可靠性、部署速度、可維護性、最佳操作實踐的設計指導以及對生態系統供應鏈進步的見解。
人工智慧硬體創新的快速步伐要求資料中心為下一波變革做好準備。在 Mt. Diablo 規範的推動下,產業向 +/-400 VDC 邁進,這是向前邁出的重要一步。谷歌敦促社區採用 Deschutes CDU 項目設計,並利用其在液體冷卻方面的深厚專業知識來滿足未來人工智慧基礎設施的需求。
參與 StorageReview
電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱