首页 企业版AI 谷歌计划交付1MW机架并进行冷却

谷歌计划交付1MW机架并进行冷却

by 哈罗德弗里茨

谷歌概述了新的 AI 数据中心基础设施,该基础设施配备 +/-400 VDC 电源和液体冷却,可处理 1MW 机架和不断上升的热负荷。

在中国、德国、意大利、韩国和美国的 2025年OCP EMEA峰会谷歌发布了关于支持现代数据中心的物理基础设施的重要公告。信息很明确:随着人工智能工作负载的扩展,电力、冷却和机械系统的性能也必须随之提升。

人工智能对电力的无尽渴求已不再是纸上谈兵。谷歌预测,到 2030 年,机器学习部署将需要每个 IT 机架超过 500 千瓦的电力。这一激增源于对更高机架密度的持续追求,每毫米机架空间都挤满了紧密互连的“xPU”(GPU、TPU、CPU)。为了满足这些需求,配电领域必须进行根本性的转变:采用更高电压的直流解决方案,将电源组件和备用电池移出机架。伴随这一转变,一个新的行业流行语应运而生。

供电

谷歌的首个重要公告回顾了十年来数据中心电力输送的进展。十年前,谷歌率先在IT机架内推广48伏直流电,与传统的12伏直流电标准相比,配电效率显著提升。业界响应这一趋势,将机架功率从10千瓦提升至100千瓦。从48伏直流电(VDC)过渡到新的+/-400伏直流电,使IT机架功率从100千瓦扩展到1兆瓦。

- 魔鬼山项目是 Meta、微软和 OCP 社区合作的成果,旨在实现 400 VDC 电气和机械接口的标准化。这种电压选择并非随意,而是充分利用了为电动汽车构建的强大供应链,从而释放规模经济效益、简化制造流程并提升质量。

+/-400 VDC 电力输送:交流转直流侧车电源架

第一个切实的成果是交流转直流侧车电源机架,它将电源组件与 IT 机架分离。这种架构将端到端效率提升了约 3%,并释放了整个机架的空间用于计算硬件。展望未来,谷歌及其合作伙伴正在探索在整个数据中心内直接进行高压直流配电,以期实现更高的密度和效率。

热挑战

随着芯片功耗飙升——从100瓦的CPU到超过1,000瓦的加速器——热管理已成为关键任务。业界掀起了一波创新浪潮,但挑战显而易见:更高的芯片密度意味着更高的散热需求。

液冷已成为唯一可行的大规模解决方案。水的热性能无与伦比:它单位体积的载热量约为空气的4,000倍,导热系数更是空气的30倍。谷歌已部署了千兆瓦级液冷技术,在过去七年中支持了超过2,000个TPU Pod,并实现了高达99.999%的正常运行时间。液冷服务器的体积约为风冷服务器的一半,用冷却板取代了笨重的散热器。这使得谷歌能够将其液冷TPU v3超级计算机的芯片密度翻一番,规模也比风冷TPU v2一代翻了两番。

谷歌人工智能数据中心基础设施

Deschutes CDU 项目:第四代正在部署,第五代尚在概念阶段

从 TPU v3 到 TPU v5,再到现在 铁力木谷歌的方法已发展到使用行内冷却液分配单元 (CDU)。这些 CDU 将机架液体回路与设施回路隔离,从而提供可控的高性能冷却环境。谷歌的 CDU 架构 Deschutes 项目采用冗余泵和热交换器,自 99.999 年以来实现了 2020% 的可用性。

StorageReview 从一开始就跟踪了液体冷却的发展,涵盖了以下创新者 降温, 潜水器, 捷酷DUG游牧民族.

加速行业采用

今年晚些时候,谷歌将贡献 德舒特斯基民盟项目 向 OCP 分享系统细节、规格和最佳实践,以加速液冷技术的大规模应用。贡献内容将包括增强冷却性能的设计指导、制造质量、可靠性、部署速度、可维护性、最佳实践以及生态系统供应链改进的见解。

人工智能硬件创新的快速发展要求数据中心做好迎接下一波变革的准备。在 Mt. Diablo 规范的推动下,行业向 +/-400 VDC 迈进,这是向前迈出的重要一步。谷歌敦促业界采用 Deschutes CDU 项目的设计,并利用其在液冷领域的深厚专业知识,以满足未来人工智能基础设施的需求。

参与 StorageReview

电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅