Home EnterpriseAI Google Ironwood TPU: een enorme sprong voorwaarts in AI-inferentieprestaties

Google Ironwood TPU: een enorme sprong voorwaarts in AI-inferentieprestaties

by Divyansh Jain

Google presenteert de Ironwood TPU, zijn krachtigste AI-versneller tot nu toe, die enorme verbeteringen in inferentieprestaties en efficiëntie oplevert.

Vorige week onthulde Google zijn nieuwste AI-versneller, de Ironwood TPU, met een aanzienlijke prestatieverbetering voor de steeds veeleisender wordende wereld van AI. Ironwood, aangekondigd op Google Cloud Next 25, is de zevende generatie van Google's TPU's, speciaal ontworpen om de moderne AI-workloads aan te kunnen, met name op het gebied van inferentie.

IJzerhout TPU

TPU's begrijpen

Voordat we ons in Ironwood verdiepen, is het handig om te begrijpen wat TPU's zijn. Tensor Processing Units zijn gespecialiseerde chips die Google speciaal heeft ontwikkeld om machine learning-workloads te versnellen. In tegenstelling tot algemene CPU's of zelfs GPU's, die geoptimaliseerd zijn voor parallelle verwerking, aanvankelijk voor grafische verwerking, zijn TPU's geoptimaliseerd voor de matrix- en tensorbewerkingen die de kern vormen van neurale netwerken. Google heeft van oudsher verschillende TPU-versies aangeboden, waarbij vaak onderscheid werd gemaakt tussen 'e'-series (gericht op efficiëntie en inferentie, het uitvoeren van vooraf getrainde modellen) en 'p'-series (gericht op pure prestaties voor het trainen van grote modellen).

Maak kennis met Ironwood 

De nieuwe Ironwood TPU is Google's meest ambitieuze AI-versneller tot nu toe. Het is de eerste TPU van het bedrijf die specifiek is ontworpen voor de eisen van 'redeneermodellen' die veel inferentie vereisen. Ironwood biedt aanzienlijke verbeteringen op alle belangrijke prestatie-indicatoren ten opzichte van zijn voorgangers, waaronder:

TPU v5e TPUv5p TPU v6e TPU v7e
BF16 Compute 197 TFLOP's 459 TFLOP's 918 TFLOP's 2.3 PFLOP's*
INT8/FP8-berekening 394 TOP's/TFLOP's* 918 TOP's/TFLOP's* 1836 TOP's/TFLOP's 4.6 POP's/PFLOP's
HBM-bandbreedte 0.8 TB / s 2.8 TB / s 1.6 TB / s 7.4 TB / s
HBM-capaciteit 16 GB 95 GB 32 GB 192 GB
Interchip-interconnectbandbreedte (per link) 400 Gbps 800 Gbps 800 Gbps 1200 Gbps
Interconnect-topologie 2D-torus 3D-torus 2D-torus 3D-torus
TPU Pod-formaat 256 8960 256 9216
Reserve kernen Nee Nee Ja Ja

Let op: Getallen gemarkeerd met “*” zijn onofficiële berekende getallen.

De belangrijkste kenmerken van Ironwood:

  • Enorme rekenkracht: elke chip levert 4.6 petaFLOPS aan FP8-prestaties, waardoor deze in dezelfde prestatieklasse zit als de Blackwell B200 van NVIDIA
  • Verhoogde geheugencapaciteit: 192 GB High Bandwidth Memory (HBM) per chip
  • Drastisch verbeterde geheugenbandbreedte: 7.37 TB/s per chip, 4.5x meer dan Trillium, waardoor snellere gegevenstoegang mogelijk is voor AI-inferentie met beperkt geheugen
  • Verbeterde verbindingsmogelijkheden: 1.2 TBps bidirectionele bandbreedte, een verbetering van 1.5x ten opzichte van Trillium, waardoor efficiëntere communicatie tussen chips mogelijk wordt

Speculatie: Is Ironwood de ontbrekende v6p?

Interessant genoeg lijkt Google de verwachte TPU v6p-generatie te hebben overgeslagen en direct over te gaan op de release van de v7e Ironwood. Dit suggereert dat deze chip oorspronkelijk bedoeld was als v6p-trainingschip. Vanwege de snel groeiende modelgroottes en de noodzaak om te concurreren met producten zoals NVIDIA's GB200 NVL72, heeft Google hem echter waarschijnlijk herpositioneerd als de v7e Ironwood. De enorme 9216 TPU-pod en het gebruik van 3D Torus-interconnect in wat wordt aangeduid als een "e"-serie chip (meestal de zuinigere variant) ondersteunen deze theorie sterk.

De weg voor ons

Google heeft aangekondigd dat Ironwood TPU's later dit jaar beschikbaar zullen zijn via Google Cloud. De technologie is al aanwezig in enkele van Googles meest geavanceerde AI-systemen, waaronder Gemini 2.5 en AlphaFold.

Naarmate deze krachtige nieuwe versnellers beschikbaar komen voor ontwikkelaars en onderzoekers, zullen ze waarschijnlijk doorbraken in AI-mogelijkheden mogelijk maken, met name voor grootschalige inferentietaken die zowel een enorme rekenkracht als geavanceerde redeneercapaciteiten vereisen.

Neem contact op met StorageReview

Nieuwsbrief | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed