Home EmpreendimentoAI Google Ironwood TPU: um grande avanço no desempenho de inferência de IA

Google Ironwood TPU: um grande avanço no desempenho de inferência de IA

by Divyansh Jain

O Google revela o Ironwood TPU, seu acelerador de IA mais poderoso até o momento, oferecendo grandes melhorias no desempenho e na eficiência da inferência.

Na semana passada, o Google revelou seu mais recente acelerador de IA personalizado, o Ironwood TPU, apresentando uma melhoria significativa de desempenho para o mundo cada vez mais exigente da IA. Anunciado no Google Cloud Next 25, o Ironwood é a sétima geração de TPUs do Google, projetado especificamente para lidar com as cargas de trabalho modernas de IA, especialmente na área de inferência.

TPU de madeira de ferro

Noções básicas sobre TPUs

Antes de mergulhar no Ironwood, é útil entender o que são TPUs. Unidades de Processamento Tensor são chips especializados desenvolvidos pelo Google especificamente para acelerar cargas de trabalho de aprendizado de máquina. Ao contrário de CPUs de uso geral ou mesmo GPUs, que são otimizadas para processamento paralelo, inicialmente para gráficos, as TPUs são otimizadas para as operações de matriz e tensor no coração das redes neurais. Historicamente, o Google ofereceu diferentes versões de TPUs, frequentemente distinguindo entre a série "e" (focada em eficiência e inferência, executando modelos pré-treinados) e a série "p" (focada em desempenho bruto para treinar modelos grandes).

Apresentando Ironwood 

O novo TPU Ironwood é o acelerador de IA mais ambicioso do Google até o momento. É o primeiro TPU da empresa projetado especificamente para as demandas de "modelos de raciocínio" com alta inferência. O Ironwood traz melhorias substanciais em todas as principais métricas de desempenho em comparação com seus antecessores, incluindo:

TPU v5e TPU v5p TPU v6e TPU v7e
BF16 Computação TFLOPs 197 TFLOPs 459 TFLOPs 918 2.3 PFRACASSOS*
Computação INT8/FP8 394 TOPs/TFLOPs* 918 TOPs/TFLOPs* 1836 TOPs/TFLOPs 4.6 POPs/PFLOPs
Largura de banda HBM 0.8 TB / s 2.8 TB / s 1.6 TB / s 7.4 TB / s
Capacidade HBM 16 GB 95 GB 32 GB 192 GB
Largura de banda de interconexão entre chips (por link) 400 Gbps 800 Gbps 800 Gbps 1200 Gbps
Topologia de interconexão Toro 2D Toro 3D Toro 2D Toro 3D
Tamanho do pod TPU 256 8960 256 9216
Núcleos sobressalentes Não Não Sim Sim

Nota: Os números marcados com “*” são números calculados não oficiais.

Mais notavelmente, o Ironwood apresenta:

  • Grande poder computacional: cada chip oferece 4.6 petaFLOPS de desempenho FP8, colocando-o na mesma classe de desempenho do Blackwell B200 da NVIDIA
  • Capacidade de memória aumentada: 192 GB de memória de alta largura de banda (HBM) por chip
  • Largura de banda de memória drasticamente melhorada: 7.37 TB/s por chip, 4.5 vezes mais que o Trillium, permitindo acesso mais rápido aos dados para inferência de IA com restrição de memória.
  • Capacidades de interconexão aprimoradas: largura de banda bidirecional de 1.2 TBps, uma melhoria de 1.5x em relação ao Trillium, facilitando uma comunicação mais eficiente entre os chips

Especulação: Ironwood é o v6p desaparecido?

Curiosamente, o Google parece ter pulado a esperada geração TPU v6p e lançado diretamente o v7e Ironwood. Isso sugere que este chip pode ter sido originalmente concebido como o chip de treinamento v6p. No entanto, devido à rápida expansão dos tamanhos dos modelos e à necessidade de competir com ofertas como o GB200 NVL72 da NVIDIA, o Google provavelmente o reposicionou como o v7e Ironwood. O enorme tamanho do pod TPU 9216 e o ​​uso da interconexão 3D Torus no que é designado como um chip da série "e" (tipicamente a variante mais econômica) corroboram fortemente essa teoria.

A estrada adiante

O Google anunciou que os TPUs Ironwood estarão disponíveis ainda este ano através do Google Cloud. A tecnologia já está presente em alguns dos sistemas de IA mais avançados do Google, incluindo o Gemini 2.5 e o AlphaFold.

À medida que esses novos e poderosos aceleradores se tornam disponíveis para desenvolvedores e pesquisadores, eles provavelmente permitirão avanços nas capacidades de IA, especialmente para cargas de trabalho de inferência em larga escala que exigem grande poder computacional e capacidades de raciocínio sofisticadas.

Envolva-se com a StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed