谷歌推出了迄今为止最强大的 AI 加速器 Ironwood TPU,在推理性能和效率方面实现了巨大提升。
上周,谷歌发布了其最新的定制 AI 加速器 Ironwood TPU,展示了其在日益苛刻的 AI 领域中显著的性能提升。Ironwood 在 Google Cloud Next 25 大会上发布,是谷歌第七代 TPU,专为处理现代 AI 工作负载(尤其是在推理领域)而设计。
了解 TPU
在深入探讨 Ironwood 之前,了解 TPU 的含义会有所帮助。张量处理单元 (TPU) 是 Google 专为加速机器学习工作负载而开发的专用芯片。与通用 CPU 甚至 GPU(最初是为图形处理而优化的)不同,TPU 针对神经网络核心的矩阵和张量运算进行了优化。从历史上看,Google 提供过不同版本的 TPU,通常区分为“e”系列(专注于效率和推理,运行预训练模型)和“p”系列(专注于训练大型模型的原始性能)。
Ironwood 简介
全新 Ironwood TPU 是谷歌迄今为止最雄心勃勃的 AI 加速器。它是谷歌首款专为推理密集型“推理模型”需求而设计的 TPU。 与前代产品相比,Ironwood 在所有关键性能指标上都有了显著改进,包括:
TPU v5e | TPU v5p | TPU v6e | TPU v7e | |
BF16 计算 | 197 TFLOPs | 459 TFLOPs | 918 TFLOPs | 2.3 P失败次数* |
INT8/FP8 计算 | 394 TOPs/TFLOPs* | 918 TOPs/TFLOPs* | 1836 TOP/TFLOP | 4.6 P运算次数/PFLOP |
HBM带宽 | 0.8 TB / s | 2.8 TB / s | 1.6 TB / s | 7.4 TB / s |
HBM 容量 | 16 GB | 95 GB | 32 GB | 192 GB |
芯片间互连带宽(每个链路) | 400 Gbps | 800 Gbps | 800 Gbps | 1200 Gbps |
互连拓扑 | 二维环面 | 二维环面 | 二维环面 | 二维环面 |
TPU Pod 尺寸 | 256 | 8960 | 256 | 9216 |
备用芯 | 没有 | 没有 | Yes | Yes |
注:标有“*”的数字为非官方计算数字。
最值得注意的是,Ironwood 具有以下特点:
- 强大的计算能力:每块芯片可提供 4.6 petaFLOPS 的 FP8 性能,与 NVIDIA 的 Blackwell B200 处于同一性能级别
- 增加内存容量:每芯片 192GB 高带宽内存 (HBM)
- 显著提升内存带宽:每芯片 7.37 TB/s,比 Trillium 高出 4.5 倍,为内存受限的 AI 推理提供更快的数据访问速度
- 增强的互连能力:1.2 TBps 双向带宽,比 Trillium 提升 1.5 倍,促进芯片之间更高效的通信
猜测:Ironwood 是失踪的 v6p 吗?
有趣的是,谷歌似乎跳过了预期的 TPU v6p 代,直接发布了 v7e Ironwood。这表明这款芯片最初可能被设计为 v6p 训练芯片。然而,由于模型规模的快速增长,以及需要与 NVIDIA 的 GB200 NVL72 等产品竞争,谷歌很可能将其重新定位为 v7e Ironwood。这款被称为“e”系列芯片(通常是更经济的版本)的芯片拥有 9216 个 TPU 单元,并采用了 3D Torus 互连技术,这有力地支持了这一理论。
前方的路
谷歌宣布 Ironwood TPU 将于今年晚些时候通过谷歌云平台推出。该技术目前已为谷歌一些最先进的 AI 系统提供支持,包括 Gemini 2.5 和 AlphaFold。
随着这些强大的新型加速器可供开发人员和研究人员使用,它们可能会推动人工智能能力的突破,特别是对于需要大量计算能力和复杂推理能力的大规模推理工作负载。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅