Inicio EmpresaAI Google Ironwood TPU: un gran salto en el rendimiento de la inferencia de IA

Google Ironwood TPU: un gran salto en el rendimiento de la inferencia de IA

by Divyansh Jain

Google presenta Ironwood TPU, su acelerador de inteligencia artificial más potente hasta el momento, que ofrece mejoras masivas en el rendimiento y la eficiencia de la inferencia.

La semana pasada, Google presentó su último acelerador de IA personalizado, Ironwood TPU, que muestra una mejora significativa en el rendimiento para el cada vez más exigente mundo de la IA. Anunciado en Google Cloud Next 25, Ironwood es la séptima generación de TPU de Google, diseñada específicamente para gestionar las cargas de trabajo de la IA moderna, en particular en el ámbito de la inferencia.

TPU de madera de hierro

Comprender las TPU

Antes de profundizar en Ironwood, conviene comprender qué son las TPU. Las Unidades de Procesamiento Tensorial (TPU) son chips especializados desarrollados por Google específicamente para acelerar las cargas de trabajo de aprendizaje automático. A diferencia de las CPU o GPU de propósito general, que están optimizadas para el procesamiento paralelo, inicialmente para gráficos, las TPU están optimizadas para las operaciones matriciales y tensoriales, que son el núcleo de las redes neuronales. Históricamente, Google ha ofrecido diferentes versiones de TPU, distinguiendo a menudo entre la serie «e» (centrada en la eficiencia y la inferencia, ejecutando modelos preentrenados) y la serie «p» (centrada en el rendimiento bruto para el entrenamiento de modelos grandes).

Presentando Ironwood 

La nueva TPU Ironwood es el acelerador de IA más ambicioso de Google hasta la fecha. Es la primera TPU de la compañía diseñada específicamente para las exigencias de los modelos de razonamiento con gran capacidad de inferencia. Ironwood aporta mejoras sustanciales en todas las métricas de rendimiento clave en comparación con sus predecesores, entre ellas:

TPUv5e TPUv5p TPUv6e TPUv7e
BF16 Computación 197 TFLOPs 459 TFLOPs 918 TFLOPs 2.3 PFRACASOS*
Computación INT8/FP8 394 TOP/TFLOP* 918 TOPs/TFLOPs* 1836 TOPs/TFLOPs 4.6 POP/PFLOP
Ancho de banda de HBM 0.8 TB / s 2.8 TB / s 1.6 TB / s 7.4 TB / s
Capacidad de HBM 16 GB 95 GB 32 GB 192 GB
Ancho de banda de interconexión entre chips (por enlace) 400 Gbps 800 Gbps 800 Gbps 1200 Gbps
Topología de interconexión Toro 2D Toro 3D Toro 2D Toro 3D
Tamaño de la cápsula de TPU 256 8960 256 9216
Núcleos de repuesto No No

Nota: Los números marcados con “*” son números calculados no oficiales.

Lo más destacable de Ironwood es:

  • Potencia computacional masiva: cada chip ofrece 4.6 petaFLOPS de rendimiento FP8, lo que lo coloca en la misma clase de rendimiento que el Blackwell B200 de NVIDIA.
  • Mayor capacidad de memoria: 192 GB de memoria de alto ancho de banda (HBM) por chip
  • Ancho de banda de memoria mejorado drásticamente: 7.37 TB/s por chip, 4.5 veces más que Trillium, lo que permite un acceso más rápido a los datos para la inferencia de IA con memoria limitada
  • Capacidades de interconexión mejoradas: ancho de banda bidireccional de 1.2 TBps, una mejora de 1.5 veces con respecto a Trillium, lo que facilita una comunicación más eficiente entre chips.

Especulación: ¿Es Ironwood el v6p que falta?

Curiosamente, Google parece haberse saltado la esperada generación de TPU v6p y haber lanzado directamente el Ironwood v7e. Esto sugiere que este chip pudo haber sido concebido originalmente como el chip de entrenamiento v6p. Sin embargo, debido a la rápida expansión del tamaño de los modelos y a la necesidad de competir con ofertas como el GB200 NVL72 de NVIDIA, Google probablemente lo reposicionó como el Ironwood v7e. El enorme tamaño del módulo de TPU 9216 y el uso de la interconexión 3D Torus en lo que se denomina un chip de la serie "e" (normalmente la variante más económica) respaldan firmemente esta teoría.

El camino por delante

Google ha anunciado que las TPU Ironwood estarán disponibles a finales de este año a través de Google Cloud. Esta tecnología ya está presente en algunos de los sistemas de IA más avanzados de Google, como Gemini 2.5 y AlphaFold.

A medida que estos nuevos y poderosos aceleradores estén disponibles para desarrolladores e investigadores, es probable que permitan avances en las capacidades de IA, en particular para cargas de trabajo de inferencia a gran escala que requieren tanto una potencia computacional masiva como capacidades de razonamiento sofisticadas.

Interactuar con StorageReview

Boletín | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed