Google Ironwood TPU：AI 推理性能的巨大飛躍

by 迪維揚什·賈恩 2025 年 4 月 28 日

寫迪維揚什·賈恩 2025 年 4 月 28 日

谷歌推出了迄今為止最強大的 AI 加速器 Ironwood TPU，在推理性能和效率方面實現了巨大提升。

上週，Google推出了最新的客製化 AI 加速器 Ironwood TPU，展示了在要求日益嚴格的 AI 領域中顯著的性能提升。 Ironwood 在 Google Cloud Next 25 上發布，是Google第七代 TPU，專為處理現代 AI 工作負載（尤其是在推理領域）而設計。

鐵木TPU

了解 TPU

在深入了解 Ironwood 之前，了解 TPU 是什麼會很有幫助。張量處理單元 (Tensor Processing Units) 是Google專門為加速機器學習工作負載而開發的專用晶片。與通用 CPU 甚至 GPU 不同，它們最初針對圖形進行了平行處理最佳化，而 TPU 則針對神經網路核心的矩陣和張量運算進行了最佳化。從歷史上看，Google提供了不同的 TPU 版本，通常區分「e」系列（專注於效率和推理，運行預訓練模型）和「p」系列（專注於訓練大型模型的原始性能）。

Ironwood 簡介

全新 Ironwood TPU 是Google迄今為止最雄心勃勃的 AI 加速器。這是該公司第一款專為滿足推理密集型「推理模型」需求而設計的 TPU。與前代產品相比，Ironwood 在所有關鍵性能指標上都有了顯著改進，包括：

	TPU v5e	TPU v5p	TPU v6e	TPU v7e
BF16 計算	197 TFLOPs	459 TFLOPs	918 TFLOPs	2.3帶夠失敗次數*
INT8/FP8 計算	394 TOPs/TFLOPs*	918 TOPs/TFLOPs*	1836 TOP/TFLOP	4.6帶夠運算次數/PFLOP
HBM頻寬	0.8 TB / s	2.8 TB / s	1.6 TB / s	7.4 TB / s
HBM 容量	GB 16	GB 95	GB 32	GB 192
晶片間互連頻寬（每個鏈路）	400 Gbps	800 Gbps	800 Gbps	1200 Gbps
互連拓撲	QR 圖環面	QR 圖環面	QR 圖環面	QR 圖環面
TPU Pod 尺寸	256	8960	256	9216
備用芯	沒有	沒有	可以	可以

註：標示「*」的數字為非官方計算數字。

最值得注意的是，Ironwood 具有以下特點：

強大的運算能力：每顆晶片可提供 4.6 petaFLOPS 的 FP8 效能，與 NVIDIA 的 Blackwell B200 處於相同效能級別
增加記憶體容量：每晶片 192GB 高頻寬記憶體 (HBM)
顯著提升記憶體頻寬：每晶片 7.37 TB/s，比 Trillium 高出 4.5 倍，為記憶體受限的 AI 推理提供更快的資料存取速度
增強的互連能力：1.2 TBps 雙向頻寬，比 Trillium 提升 1.5 倍，促進晶片之間更有效率的通訊

猜測：Ironwood 是失蹤的 v6p 嗎？

有趣的是，Google似乎跳過了預期的 TPU v6p 代，直接發布了 v7e Ironwood。這表明該晶片最初可能被設計為 v6p 訓練晶片。然而，由於模型尺寸迅速擴大，並且需要與 NVIDIA 的 GB200 NVL72 等產品競爭，Google可能會將其重新定位為 v7e Ironwood。巨大的 9216 TPU 艙尺寸和在被稱為“e”系列晶片（通常是更經濟的版本）中使用 3D Torus 互連強烈支持了這一理論。

前方的路

谷歌宣布 Ironwood TPU 將於今年稍後透過Google雲端推出。這項技術已經為Google一些最先進的人工智慧系統提供支持，包括 Gemini 2.5 和 AlphaFold。

隨著這些強大的新型加速器可供開發人員和研究人員使用，它們可能會推動人工智慧能力的突破，特別是對於需要大量運算能力和複雜推理能力的大規模推理工作負載。

參與 StorageReview

迪維揚什·賈恩

MLOps 和機器學習工程師專注於 NLP 和大規模訓練。在 Storage Review，我負責 AI、GPU 和新興工作負載測試，以提供實用的見解和效能分析。

以前的帖子

聯想推出全面的人工智慧優化資料儲存產品組合

下一篇文章