Google Ironwood TPU: een enorme sprong voorwaarts in AI-inferentieprestaties

by Divyansh Jain 28 april 2025

geschreven door Divyansh Jain 28 april 2025

Google presenteert de Ironwood TPU, zijn krachtigste AI-versneller tot nu toe, die enorme verbeteringen in inferentieprestaties en efficiëntie oplevert.

Vorige week onthulde Google zijn nieuwste AI-versneller, de Ironwood TPU, met een aanzienlijke prestatieverbetering voor de steeds veeleisender wordende wereld van AI. Ironwood, aangekondigd op Google Cloud Next 25, is de zevende generatie van Google's TPU's, speciaal ontworpen om de moderne AI-workloads aan te kunnen, met name op het gebied van inferentie.

IJzerhout TPU

TPU's begrijpen

Voordat we ons in Ironwood verdiepen, is het handig om te begrijpen wat TPU's zijn. Tensor Processing Units zijn gespecialiseerde chips die Google speciaal heeft ontwikkeld om machine learning-workloads te versnellen. In tegenstelling tot algemene CPU's of zelfs GPU's, die geoptimaliseerd zijn voor parallelle verwerking, aanvankelijk voor grafische verwerking, zijn TPU's geoptimaliseerd voor de matrix- en tensorbewerkingen die de kern vormen van neurale netwerken. Google heeft van oudsher verschillende TPU-versies aangeboden, waarbij vaak onderscheid werd gemaakt tussen 'e'-series (gericht op efficiëntie en inferentie, het uitvoeren van vooraf getrainde modellen) en 'p'-series (gericht op pure prestaties voor het trainen van grote modellen).

Maak kennis met Ironwood

De nieuwe Ironwood TPU is Google's meest ambitieuze AI-versneller tot nu toe. Het is de eerste TPU van het bedrijf die specifiek is ontworpen voor de eisen van 'redeneermodellen' die veel inferentie vereisen. Ironwood biedt aanzienlijke verbeteringen op alle belangrijke prestatie-indicatoren ten opzichte van zijn voorgangers, waaronder:

	TPU v5e	TPUv5p	TPU v6e	TPU v7e
BF16 Compute	197 TFLOP's	459 TFLOP's	918 TFLOP's	2.3 PFLOP's*
INT8/FP8-berekening	394 TOP's/TFLOP's*	918 TOP's/TFLOP's*	1836 TOP's/TFLOP's	4.6 POP's/PFLOP's
HBM-bandbreedte	0.8 TB / s	2.8 TB / s	1.6 TB / s	7.4 TB / s
HBM-capaciteit	16 GB	95 GB	32 GB	192 GB
Interchip-interconnectbandbreedte (per link)	400 Gbps	800 Gbps	800 Gbps	1200 Gbps
Interconnect-topologie	2D-torus	3D-torus	2D-torus	3D-torus
TPU Pod-formaat	256	8960	256	9216
Reserve kernen	Nee	Nee	Ja	Ja

Let op: Getallen gemarkeerd met “*” zijn onofficiële berekende getallen.

De belangrijkste kenmerken van Ironwood:

Enorme rekenkracht: elke chip levert 4.6 petaFLOPS aan FP8-prestaties, waardoor deze in dezelfde prestatieklasse zit als de Blackwell B200 van NVIDIA
Verhoogde geheugencapaciteit: 192 GB High Bandwidth Memory (HBM) per chip
Drastisch verbeterde geheugenbandbreedte: 7.37 TB/s per chip, 4.5x meer dan Trillium, waardoor snellere gegevenstoegang mogelijk is voor AI-inferentie met beperkt geheugen
Verbeterde verbindingsmogelijkheden: 1.2 TBps bidirectionele bandbreedte, een verbetering van 1.5x ten opzichte van Trillium, waardoor efficiëntere communicatie tussen chips mogelijk wordt

Speculatie: Is Ironwood de ontbrekende v6p?

Interessant genoeg lijkt Google de verwachte TPU v6p-generatie te hebben overgeslagen en direct over te gaan op de release van de v7e Ironwood. Dit suggereert dat deze chip oorspronkelijk bedoeld was als v6p-trainingschip. Vanwege de snel groeiende modelgroottes en de noodzaak om te concurreren met producten zoals NVIDIA's GB200 NVL72, heeft Google hem echter waarschijnlijk herpositioneerd als de v7e Ironwood. De enorme 9216 TPU-pod en het gebruik van 3D Torus-interconnect in wat wordt aangeduid als een "e"-serie chip (meestal de zuinigere variant) ondersteunen deze theorie sterk.

De weg voor ons

Google heeft aangekondigd dat Ironwood TPU's later dit jaar beschikbaar zullen zijn via Google Cloud. De technologie is al aanwezig in enkele van Googles meest geavanceerde AI-systemen, waaronder Gemini 2.5 en AlphaFold.

Naarmate deze krachtige nieuwe versnellers beschikbaar komen voor ontwikkelaars en onderzoekers, zullen ze waarschijnlijk doorbraken in AI-mogelijkheden mogelijk maken, met name voor grootschalige inferentietaken die zowel een enorme rekenkracht als geavanceerde redeneercapaciteiten vereisen.

Neem contact op met StorageReview

Divyansh Jain

MLOps en Machine Learning Engineer gericht op NLP en grootschalige training. Bij Storage Review houd ik me bezig met AI, GPU en opkomende workloadtests om praktische inzichten en prestatieanalyses te leveren.

vorige post

Lenovo onthult uitgebreide AI-geoptimaliseerde dataopslagportfolio

volgende post