谷歌推出了迄今為止最強大的 AI 加速器 Ironwood TPU,在推理性能和效率方面實現了巨大提升。
上週,Google推出了最新的客製化 AI 加速器 Ironwood TPU,展示了在要求日益嚴格的 AI 領域中顯著的性能提升。 Ironwood 在 Google Cloud Next 25 上發布,是Google第七代 TPU,專為處理現代 AI 工作負載(尤其是在推理領域)而設計。
了解 TPU
在深入了解 Ironwood 之前,了解 TPU 是什麼會很有幫助。張量處理單元 (Tensor Processing Units) 是Google專門為加速機器學習工作負載而開發的專用晶片。與通用 CPU 甚至 GPU 不同,它們最初針對圖形進行了平行處理最佳化,而 TPU 則針對神經網路核心的矩陣和張量運算進行了最佳化。從歷史上看,Google提供了不同的 TPU 版本,通常區分「e」系列(專注於效率和推理,運行預訓練模型)和「p」系列(專注於訓練大型模型的原始性能)。
Ironwood 簡介
全新 Ironwood TPU 是Google迄今為止最雄心勃勃的 AI 加速器。這是該公司第一款專為滿足推理密集型「推理模型」需求而設計的 TPU。 與前代產品相比,Ironwood 在所有關鍵性能指標上都有了顯著改進,包括:
TPU v5e | TPU v5p | TPU v6e | TPU v7e | |
BF16 計算 | 197 TFLOPs | 459 TFLOPs | 918 TFLOPs | 2.3帶夠失敗次數* |
INT8/FP8 計算 | 394 TOPs/TFLOPs* | 918 TOPs/TFLOPs* | 1836 TOP/TFLOP | 4.6帶夠運算次數/PFLOP |
HBM頻寬 | 0.8 TB / s | 2.8 TB / s | 1.6 TB / s | 7.4 TB / s |
HBM 容量 | GB 16 | GB 95 | GB 32 | GB 192 |
晶片間互連頻寬(每個鏈路) | 400 Gbps | 800 Gbps | 800 Gbps | 1200 Gbps |
互連拓撲 | QR 圖環面 | QR 圖環面 | QR 圖環面 | QR 圖環面 |
TPU Pod 尺寸 | 256 | 8960 | 256 | 9216 |
備用芯 | 沒有 | 沒有 | 可以 | 可以 |
註:標示「*」的數字為非官方計算數字。
最值得注意的是,Ironwood 具有以下特點:
- 強大的運算能力:每顆晶片可提供 4.6 petaFLOPS 的 FP8 效能,與 NVIDIA 的 Blackwell B200 處於相同效能級別
- 增加記憶體容量:每晶片 192GB 高頻寬記憶體 (HBM)
- 顯著提升記憶體頻寬:每晶片 7.37 TB/s,比 Trillium 高出 4.5 倍,為記憶體受限的 AI 推理提供更快的資料存取速度
- 增強的互連能力:1.2 TBps 雙向頻寬,比 Trillium 提升 1.5 倍,促進晶片之間更有效率的通訊
猜測:Ironwood 是失蹤的 v6p 嗎?
有趣的是,Google似乎跳過了預期的 TPU v6p 代,直接發布了 v7e Ironwood。這表明該晶片最初可能被設計為 v6p 訓練晶片。然而,由於模型尺寸迅速擴大,並且需要與 NVIDIA 的 GB200 NVL72 等產品競爭,Google可能會將其重新定位為 v7e Ironwood。巨大的 9216 TPU 艙尺寸和在被稱為“e”系列晶片(通常是更經濟的版本)中使用 3D Torus 互連強烈支持了這一理論。
前方的路
谷歌宣布 Ironwood TPU 將於今年稍後透過Google雲端推出。這項技術已經為Google一些最先進的人工智慧系統提供支持,包括 Gemini 2.5 和 AlphaFold。
隨著這些強大的新型加速器可供開發人員和研究人員使用,它們可能會推動人工智慧能力的突破,特別是對於需要大量運算能力和複雜推理能力的大規模推理工作負載。
參與 StorageReview
電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱