AI Infra Summit destaca los resultados de inferencia MLPerf de AMD y NVIDIA, así como la hoja de ruta Vera Rubin 2026 de NVIDIA, específicamente Rubin CPX.
En AI Infra Summit 2025, NVIDIA mostró su impulso en dos frentes: nuevos e impresionantes resultados de inferencia MLPerf de sus sistemas Blackwell Ultra y, lo que es más importante, una hoja de ruta detallada para la generación Vera Rubin 2026, que incluye Rubin CPX, una nueva clase de GPU diseñada específicamente para la inferencia de contexto masivo.
Blackwell Ultra establece nuevos estándares de rendimiento
Los sistemas a escala de rack NVL300 GB72 de NVIDIA ya han alcanzado un rendimiento excepcional en MLPerf Inference v5.1, lo que demuestra la madurez arquitectónica de la plataforma Blackwell Ultra, a medida que el software continúa desarrollando todo su potencial. Esta potencia se demuestra claramente en el benchmark Llama 2 70B, donde la plataforma alcanzó la impresionante cifra de 12,934 12,701 tokens por segundo por GPU en entornos offline. El rendimiento en la prueba de servicio online fue prácticamente idéntico, con XNUMX XNUMX tokens por segundo, lo que demuestra la excepcional eficiencia de la arquitectura en diferentes cargas de trabajo.
La preparación de la plataforma para aplicaciones del mundo real se demostró aún más en la nueva categoría interactiva, que impone restricciones de latencia considerablemente más estrictas, incluyendo requisitos de tiempo hasta el primer token inferiores a 500 ms y un umbral de 33 tokens por segundo por usuario. Incluso con estas exigentes exigencias de calidad de servicio, Blackwell Ultra mantuvo un alto rendimiento, entregando 7,856 tokens por segundo por GPU. En la prueba de referencia de razonamiento DeepSeek-R1, la plataforma estableció otra línea base definitiva de 5,842 tokens por segundo por GPU.
En definitiva, estos resultados indican que las capacidades del hardware superan las del software actual. Aún queda un margen de rendimiento significativo por explotar, ya que frameworks como TensorRT-LLM y NVIDIA Dynamo evolucionan para aprovechar al máximo las ventajas arquitectónicas de Blackwell Ultra, como sus rutas de cómputo NVFP4 mejoradas y la enorme capacidad de 288 GB de HBM3e por GPU.
Acelerando la cadencia de la innovación: la plataforma Vera Rubin
NVIDIA ha adoptado un ciclo anual de actualización de arquitectura como respuesta estratégica al crecimiento exponencial de las demandas computacionales de IA. Siguiendo este ambicioso cronograma, NVIDIA reveló que la generación Vera Rubin ya está completa y su implementación empresarial está prevista para el segundo semestre de 2026.
La arquitectura Vera Rubin presenta una actualización integral de la plataforma centrada en la integración de las nuevas CPU y GPU Rubin. La CPU Vera representa una evolución significativa con respecto a las tres últimas generaciones de sistemas NVIDIA Grace. Las CPU Vera cuentan con 88 núcleos ARM que admiten 176 subprocesos. Estos procesadores también duplican el ancho de banda de enlace chip a chip (C2C) a 1,800 GB/s, lo que permite una conexión más rápida entre la CPU, la GPU y sus recursos de memoria compartida.
En la capa de interconexión, el NVLink de sexta generación ofrece 3,600 GB/s de ancho de banda bidireccional, duplicando el ancho de banda de los switches NVLink de quinta generación actuales. Esta conectividad mejorada se vuelve especialmente crucial a medida que los modelos siguen escalando más allá de la capacidad de memoria de los dispositivos individuales, lo que requiere sofisticadas estrategias de ejecución paralela que exigen una latencia de comunicación mínima y un rendimiento máximo entre nodos.
Como complemento al avance de NVLink, el conmutador Spectrum-6, que incorpora tecnología de óptica coempaquetada (CPO), alcanza una capacidad de conmutación de 102 TB/s. La integración de componentes ópticos directamente en el paquete del conmutador elimina los cuellos de botella tradicionales en la conversión de eléctrico a óptico, lo que reduce la latencia y mejora drásticamente la eficiencia energética, aspectos cruciales a medida que las fábricas de IA alcanzan niveles de consumo energético de gigavatios.
Los sistemas VR NVL144 seguirán utilizando la probada plataforma de rack Oberon que actualmente sustenta las implementaciones de Grace Hopper, Grace Blackwell y Grace Blackwell Ultra.
Evolución de la nomenclatura arquitectónica: de los paquetes a las matrices
NVIDIA está cambiando su convención de nomenclatura, pasando de una basada en encapsulado a una basada en matriz. Si bien este cambio puede ser controvertido, es una medida con visión de futuro que aportará mayor claridad, especialmente con el lanzamiento previsto de las GPU Rubin Ultra a finales de 2026, que se espera que incorporen cuatro matrices del tamaño de una retícula.
Con la generación Rubin, NVIDIA adopta una nomenclatura de recuento de matrices que refleja directamente los recursos computacionales disponibles. La designación NVL144 hace referencia explícita a 144 matrices de GPU, manteniendo la configuración física de 72 paquetes y proporcionando una medida más precisa de la capacidad computacional. Esto es similar a los sistemas NVL200 de la generación actual GB300 y GB72, que contienen 72 paquetes de GPU, cada uno con dos matrices de GPU, para un total de 144 matrices computacionales.
Abordar el desafío del procesamiento del contexto
El anuncio de Rubin CPX, cuya disponibilidad está prevista para finales de 2026, es la respuesta arquitectónica de NVIDIA a uno de los desafíos más apremiantes en la inferencia LLM: la discrepancia fundamental entre los patrones computacionales durante las diferentes fases de generación de tokens. Para comprender esta innovación, es necesario analizar las características distintivas de las cargas de trabajo de inferencia LLM y las limitaciones de las arquitecturas de GPU homogéneas actuales para abordar estas diversas demandas computacionales.
La inferencia de modelos de lenguaje grandes se realiza mediante dos fases computacionales fundamentalmente distintas que imponen exigencias radicalmente distintas a los recursos de hardware. La etapa de prellenado procesa la solicitud de entrada inicial, calculando las matrices de clave y valor para su posterior generación. Esta fase requiere un uso intensivo de recursos computacionales y utiliza eficientemente el enorme rendimiento de punto flotante de las GPU modernas.
La etapa de decodificación presenta un desafío computacional completamente diferente. Durante la decodificación, el modelo genera tokens de salida de forma autorregresiva, generando un token a la vez al atender el contexto previo. Cada nuevo token requiere que el mecanismo de atención procese todo el historial de la secuencia y calcule su relación con todos los tokens anteriores. Esto crea un patrón computacional único donde el ancho de banda de la memoria, en lugar del rendimiento computacional, se convierte en el principal cuello de botella. La caché KV, que almacena las representaciones intermedias necesarias para mantener el contexto, se convierte en el principal consumidor de memoria.
Las características de escalabilidad de la caché KV presentan desafíos particulares en entornos de producción. Para un modelo como Llama 3.1 405B que procesa contextos extendidos, la caché KV puede consumir fácilmente decenas de gigabytes por secuencia. En escenarios de inferencia por lotes, esenciales para lograr un alto rendimiento en producción, el tamaño agregado de la caché KV con frecuencia supera el de los propios pesos del modelo. Con los grandes tamaños de lote posibles en implementaciones NVL72 a gran escala, la caché KV puede alcanzar varios terabytes. Si bien estos datos deben permanecer accesibles con una latencia razonable, no todos los accesos a la caché KV requieren el ancho de banda extremo de la memoria HBM. Muchas operaciones de atención presentan patrones de acceso compatibles con arquitecturas de memoria jerárquica.
Rubin CPX: Arquitectura diseñada específicamente para el procesamiento de contexto
Rubin CPX soluciona estas discordancias arquitectónicas mediante un diseño específico para la inferencia LLM de contexto largo. La arquitectura se centra en 128 GB de memoria GDDR7, lo que proporciona un conjunto de memoria amplio y rentable para operaciones de caché KV. El ancho de banda de GDDR7, aunque inferior al de HBM4, es suficiente para la mayoría de las operaciones de atención, especialmente al combinarse con estrategias de caché inteligente.
La integración con la plataforma Vera Rubin, más amplia, en el rack CPX VR NVL144 se realiza mediante enlaces PCIe a través de las tarjetas de red ConnectX-9 y chips de conmutación, lo que facilita modelos de ejecución híbridos donde las operaciones de alto consumo de cómputo se realizan en GPU tradicionales. La gestión del contexto con uso intensivo de memoria se migra a los procesadores CPX.
Arquitecturas de implementación flexibles y opciones de configuración
La arquitectura modular de la plataforma Vera Rubin permite flexibilidad de implementación, lo que permite a las organizaciones optimizar las configuraciones para cargas de trabajo específicas. La configuración estándar del rack VR NVL144 incluye GPU Vera Rubin con ocho NIC ConnectX-9, lo que proporciona una arquitectura equilibrada ideal para diversas cargas de trabajo de IA. Esta configuración ofrece 3.6 exaFLOPS de cómputo NVFP4, una mejora de 3.3 veces con respecto a los sistemas GB300 NVL72 actuales, junto con 1.4 PB/s de ancho de banda HBM4 (2.5 veces la generación actual) y 75 TB de capacidad de memoria HBM4 (el doble de la generación actual).
Para organizaciones que optimizan la inferencia y el postentrenamiento de RL de contexto largo, está disponible la bandeja de cómputo ultradensa VR NVL144 CPX. Cada bandeja incorpora cuatro paquetes de GPU VR, cada uno con ocho matrices de GPU, lo que mantiene la densidad computacional de la configuración estándar, a la vez que añade ocho GPU Rubin CPX. Los ocho chips NIC/switch ConnectX-9 garantizan un flujo de datos fluido, esencial para la inferencia distribuida.
La naturaleza modular de la arquitectura permite estrategias de implementación excepcionalmente flexibles. Las organizaciones pueden implementar inicialmente racks VR NVL144 estándar y posteriormente ampliarlos con racks Rubin CPX dedicados a medida que aumentan sus necesidades de procesamiento de contexto. Este enfoque permite que la infraestructura evolucione a la par con las capacidades del modelo, evitando así el sobreaprovisionamiento.
La configuración completa del VR NVL144 CPX establece un nuevo estándar de potencia computacional. El sistema ofrece 8 exaflops de computación NVFP4, una mejora de 7.5 veces con respecto a los sistemas GB300 NVL72 de la generación actual. Esta enorme capacidad computacional se combina con 1.7 PB/s de ancho de banda de memoria agregada, aprovechando tanto HBM4 como GDDR7 para alcanzar el triple de rendimiento de memoria que los sistemas actuales. La capacidad total de memoria alcanza los 100 TB, lo que proporciona 2.5 veces los recursos de memoria de las plataformas de la generación actual.
NVIDIA prevé su disponibilidad a finales de 2026. Esto habilitará nuevas categorías de aplicaciones de IA y facilitará la producción de ventanas de contexto de millones de tokens, lo que permitirá a los sistemas de IA procesar bases de código completas o documentos extensos en una sola pasada. Estas innovaciones también permiten a las organizaciones gestionar lotes más grandes, lo que reduce el coste de inferencia y genera un cálculo de gastos operativos más favorable.
Plan de infraestructura a escala de gigavatios
Además de las innovaciones individuales de sistemas, NVIDIA también presentó arquitecturas de referencia para fábricas de IA a escala de gigavatios. Desarrolladas en colaboración con socios de infraestructura como Jacobs, Schneider Electric, Siemens Energy y Vertiv, estas arquitecturas abordan la infraestructura completa, desde la generación de energía hasta la entrega computacional. Los diseños de referencia reconocen que las implementaciones de IA de próxima generación requieren una optimización integral que va mucho más allá de los propios componentes computacionales.
Estos planos arquitectónicos utilizan gemelos digitales de NVIDIA Omniverse para facilitar la simulación integral de las instalaciones antes de la implementación física. Las organizaciones pueden modelar la distribución de energía, los sistemas de refrigeración y las cargas de trabajo computacionales en simulaciones unificadas, identificando y solucionando cuellos de botella antes de implementar la infraestructura física.
Conclusión
NVIDIA continúa liderando el sector de la infraestructura de IA con un enfoque innovador y centrado en el desarrollador que aborda directamente los problemas que enfrentan las organizaciones y los laboratorios de IA. La transición de la aceleración de propósito general a arquitecturas específicas para cada carga de trabajo, ejemplificada por el enfoque específico de Rubin CPX para el procesamiento de contexto, indica que los futuros sistemas de IA comprenderán cada vez más recursos computacionales heterogéneos optimizados para cada fase de los flujos de trabajo de IA. Esta evolución arquitectónica exige que las organizaciones que planifiquen inversiones plurianuales en infraestructura de IA consideren no solo el rendimiento computacional bruto, sino también la alineación entre las capacidades del hardware y las arquitecturas de modelos en evolución.
El ritmo acelerado de innovación, desde Blackwell Ultra, pasando por Vera Rubin, hasta Rubin CPX en un plazo reducido, es realmente impresionante. Este ritmo acelerado exige que las organizaciones diseñen sistemas capaces de integrar nuevos paradigmas arquitectónicos a medida que surgen, evitando el estancamiento que caracterizó a las generaciones anteriores de infraestructura de centros de datos. Para abordar este desafío, los diseños de referencia AI Factory de NVIDIA y los gemelos digitales Omniverse proporcionan los planos y las herramientas de simulación esenciales para asegurar el futuro de estas inversiones cruciales. A medida que los modelos de IA continúan su trayectoria hacia escalas de billones de parámetros y contextos de millones de tokens, las innovaciones arquitectónicas presentadas en la Cumbre de Infraestructura de IA sientan las bases esenciales para este futuro de la computación. Establecen los marcos y las tecnologías que definirán las capacidades de IA empresarial a lo largo de la década.
Artículos referenciados: Noticias de la Nvidia GTC25
Todas las diapositivas e imágenes provienen de Nvidia.




Amazon