StorageReview.com

NVIDIA lanza la arquitectura Vera Rubin en CES 2026: el rack VR NVL72

AI  ◇  DPU  ◇  Empresa  ◇  Networking  ◇  Server  ◇  Rack de servidores

En el CES 2026, NVIDIA presentó la plataforma Rubin, basada en el sistema a escala de rack Vera Rubin NVL72. Esta es la arquitectura a escala de rack de tercera generación de NVIDIA, que combina seis chips codiseñados en un único sistema unificado. La plataforma estará disponible a través de sus socios en el segundo semestre de 2026, con los seis chips ya devueltos de su fabricación y actualmente en proceso de validación con cargas de trabajo reales.

Vera Rubin NVL72: Seis chips, un sistema unificado

El Vera Rubin NVL72 utiliza lo que NVIDIA llama “diseño conjunto extremo”, en el que seis chips distintos se desarrollan juntos para funcionar como un sistema unificado.

CPU Vera: silicio ARM diseñado para fábricas de IA

El primer chip presentado fue la CPU NVIDIA Vera, que representa la continuación de la inversión de NVIDIA en silicio ARM personalizado para cargas de trabajo de IA. Basada en 88 núcleos ARM Olympus personalizados y totalmente compatible con Armv9.2, Vera está diseñada específicamente para las demandas de movimiento de datos y procesamiento agente de las fábricas de IA modernas. Cuenta con conectividad NVLink-C2C, que proporciona un ancho de banda de 1.8 TB/s a las GPU Rubin, duplicando el ancho de banda C2C respecto a generaciones anteriores y funcionando siete veces más rápido que PCIe Gen 6. La CPU Vera duplica el rendimiento de procesamiento de datos, compresión y compilación de código en comparación con la CPU Grace de la generación anterior.

Comparación generacional: Blackwell Ultra vs. Vera Rubin NVL72

Especificaciones GB300 NVL72 (Blackwell Ultra) VR NVL72 (Vera Rubin)
Cantidad de GPU 72 GPU Blackwell Ultra 72 GPU Rubin
Recuento de CPU 36 CPU Grace 36 CPU Vera
Núcleos de CPU 72 núcleos ARM por CPU 88 núcleos Olympus ARM por CPU
Rendimiento de inferencia del FP4 1.44 exaFLOPS 3.6 exaFLOPS
NVFP4 por GPU (inferencia) 20 PFLOPS 50 PFLOPS
NVFP4 por GPU (Entrenamiento) 10 PFLOPS 35 PFLOPS
Tipo de memoria de GPU HBM3e HBM4
Ancho de banda de memoria GPU ~8 TB/s ~22 TB/s
Generación NVLink Enlace NV 5 Enlace NV 6
Ancho de banda de NVLink (por GPU) 1.8 TB / s 3.6 TB / s
Ancho de banda NVLink a escala de rack 130 TB / s 260 TB / s
NIC de escalabilidad horizontal ConnectX-8 (800 Gb/s) ConnectX-9 (1.6 TB/s)
Interconexión CPU-GPU NVLink-C2C (900 GB/s) NVLink-C2C (1.8 TB/s)

GPU Rubin: Motores Transformer, NVFP4 y HBM4

A continuación, llegó la estrella del espectáculo, la GPU NVIDIA Rubin, que incorpora un motor Transformer de tercera generación con compresión adaptativa acelerada por hardware. Este ajusta dinámicamente la precisión en las capas del transformador, logrando un mayor rendimiento donde se puede reducir la precisión, a la vez que se mantiene la exactitud donde es importante. Esta implementación de NVFP4 ofrece 50 petaflops de cómputo para inferencia (5x Blackwell) y 35 petaflops para entrenamiento (3.5x Blackwell). La GPU Rubin es la primera en integrar memoria HBM4 con un ancho de banda de hasta 22 TB/s, un avance significativo que supera el límite de ancho de banda de memoria al que se enfrentan los modelos MoE de gran tamaño.

NVLink 6: Comunicación integral a escala de rack

El conmutador NVIDIA NVLink 6 duplica el ancho de banda por GPU a 3.6 TB/s, y el rack completo proporciona 260 TB/s de red escalable, más del doble del ancho de banda transversal de internet global. Esta estructura escalable permite que cada GPU se comunique con todas las demás simultáneamente (un requisito para el paralelismo de expertos de MoE), donde todos los expertos deben compartir resultados en todo el clúster. La computación integrada en red acelera las operaciones colectivas y reduce la congestión, descargando trabajo que, de otro modo, consumiría ciclos de GPU.

ConnectX-9 SuperNIC: Redefiniendo las redes escalables

La SuperNIC NVIDIA ConnectX-9 gestiona la red escalable, ofreciendo 1.6 TB/s de ancho de banda RDMA por GPU para la comunicación fuera del rack. ConnectX-9 se diseñó en conjunto con la CPU Vera para maximizar la eficiencia de la ruta de datos e introduce una ruta de datos acelerada, programable y totalmente definida por software que permite a los laboratorios de IA implementar algoritmos de transferencia de datos personalizados y optimizados para sus arquitecturas de modelo específicas.

BlueField-4 DPU y arquitectura segura ASTRA

BlueField-4 es la unidad de procesamiento de datos de cuarta generación de NVIDIA y representa una renovación fundamental del almacenamiento y las redes para cargas de trabajo de IA. La nueva DPU cuenta con una CPU de 64 núcleos de nivel NVIDIA, en comparación con los 16 núcleos ARM Cortex-A78 de BlueField-3, lo que ofrece un rendimiento de cómputo seis veces superior. Incluye una SuperNIC ConnectX-9 integrada en lugar de ConnectX-7 en BlueField-3, lo que duplica el ancho de banda de la red a 800 Gb/s. El acceso de la GPU al almacenamiento de datos es dos veces más rápido que en la generación anterior. Más allá de las mejoras en las especificaciones, la importancia de BlueField-4 reside en lo que posibilita: un nuevo nivel de infraestructura de almacenamiento nativa de IA que NVIDIA posiciona como esencial para la IA agentica a escala.

BlueField-4 descarga el procesamiento de red, almacenamiento y seguridad para que las GPU Rubin y las CPU Vera se concentren en la ejecución del modelo. Está totalmente integrado en el diseño validado de NVIDIA Enterprise AI Factory, con el soporte del ecosistema de Red Hat, Palo Alto Networks, Fortinet y otros.

BlueField-4 también incorpora ASTRA (Arquitectura Avanzada de Recursos de Confianza Segura). Esta arquitectura de confianza a nivel de sistema proporciona un único punto de control para aprovisionar, aislar y operar de forma segura entornos de IA a gran escala sin comprometer el rendimiento.

Computación confidencial en todo el rack

Vera Rubin NVL72 es la primera plataforma a escala de rack que ofrece computación confidencial de NVIDIA en todo el sistema. La computación confidencial de tercera generación mantiene la seguridad de los datos en la CPU, la GPU y todo el dominio NVLink, con cada bus cifrado en tránsito. Esto aborda una creciente preocupación entre las empresas y los laboratorios de IA que ejecutan modelos propietarios en infraestructura compartida: la capacidad de garantizar que los modelos, los datos de entrenamiento y las cargas de trabajo de inferencia permanezcan protegidos incluso al implementarse en sistemas de terceros.

El conmutador Ethernet NVIDIA Spectrum-6 impulsa las redes de escalamiento horizontal de Nvidia. Está basado en tecnología SerDes de 200 G con óptica coempaquetada (CPO), alcanzando una capacidad de conmutación de 102 TB/s y alimentando el tráfico este-oeste a través de racks VR NVL72. La transición a CPO es significativa. Al integrar la óptica directamente con el silicio del conmutador, NVIDIA afirma una fiabilidad 10 veces mayor, un tiempo de actividad 5 veces mayor y una eficiencia energética 5 veces superior en comparación con la óptica conectable tradicional.

Mejoras de costos y eficiencia para los modelos MoE

NVIDIA afirma que VR NVL72 ofrece una séptima parte del coste de token para la inferencia de modelos de mezcla de expertos de gran tamaño con la misma latencia que Blackwell. Requiere solo una cuarta parte de la cantidad de GPU para entrenar el mismo modelo de mezcla de expertos de gran tamaño en el mismo tiempo. La plataforma alcanza ocho veces el consumo de cómputo de inferencia por vatio.

Estas mejoras abordan los requisitos de los modelos MoE, que activan solo un subconjunto de sus expertos para cada token. Modelos como Kimi K2 Thinking emplean 384 expertos, pero solo activan ocho a la vez, lo que requiere una comunicación masiva entre GPUs. La red escalable de 260 TB/s del VR NVL72 gestiona este patrón de comunicación.

Un rack sin cables diseñado para una escala masiva

El VR NVL72 presenta un diseño de bandeja modular, sin cables, ventiladores ni mangueras, que utiliza únicamente PCB y conectores, en lugar de cableado interno. Las bandejas de cómputo se conectan mediante conectores ciegos al insertarse en el rack, lo que elimina la necesidad de enrutar manualmente los cables. Las únicas conexiones externas son dos mangueras de entrada y salida de líquido que se conectan a los bloques de refrigeración líquida.

Sistemas anteriores, como el GB300 NVL72, requerían aproximadamente 100 minutos para ensamblar una sola bandeja de cómputo. Cada conexión de cable representaba un punto de fallo potencial, lo cual se vuelve significativo al contar con cientos de miles de GPU. El cableado restringía las vías de refrigeración y consumía espacio, mientras que los ventiladores añadían complejidad mecánica y ruido.

El nuevo diseño reduce el tiempo de montaje y mantenimiento 18 veces. La plataforma también incorpora un motor RAS (Fiabilidad, Disponibilidad y Capacidad de Servicio) de segunda generación que abarca GPU, CPU y NVLink, lo que proporciona comprobaciones de estado en tiempo real, tolerancia a fallos y mantenimiento proactivo. Las bandejas de conmutación NVLink ahora admiten mantenimiento sin tiempo de inactividad, lo que permite que los racks permanezcan operativos mientras se retiran o se llenan parcialmente las bandejas de conmutación. A una escala de cientos de miles de GPU, estas mejoras en la capacidad de servicio se traducen directamente en el tiempo de actividad y el rendimiento óptimo del clúster.

Esta arquitectura permite futuras configuraciones de mayor densidad. Esto también es clave para permitiendo lo previamente provocado Diseños de rack CPX de Vera Rubin que cubrimos en la AI Infra Summit, que además añaden GPU de procesamiento de contexto a el mismo trineo de cómputo en un diseño ya denso.

Plataforma de almacenamiento de memoria de contexto de inferencia

NVIDIA anunció la Plataforma de Almacenamiento de Memoria de Contexto de Inferencia en CES 2026, una nueva clase de infraestructura de almacenamiento nativa de IA diseñada específicamente para caché KV. La plataforma se basa en las redes Ethernet BlueField-4 y Spectrum-X. Ofrece hasta 5 veces más tokens por segundo que el almacenamiento de red tradicional utilizado para contexto de inferencia, un rendimiento por dólar de TCO hasta 5 veces superior, una eficiencia energética hasta 5 veces superior y una mejora de 20 veces en el tiempo hasta el primer token. La ubicación de caché KV acelerada por hardware de BlueField-4 elimina la sobrecarga de metadatos y reduce el movimiento de datos, mientras que Ethernet Spectrum-X proporciona la estructura de alto ancho de banda y baja latencia para el acceso basado en RDMA.

Esta plataforma aborda un cuello de botella creciente en la inferencia LLM: la gestión de la caché KV. Los modelos Transformer utilizan un mecanismo de atención donde cada token generado debe atender a todos los tokens anteriores. Sin almacenamiento en caché, esto requiere recalcular los vectores de clave y valor para cada token, lo que resulta en una complejidad O(n²). El almacenamiento en caché KV almacena estas matrices precalculadas en memoria para su reutilización, reduciendo la complejidad a O(n). El problema radica en que el tamaño de la caché KV crece linealmente con la longitud de la secuencia y el tamaño del lote. Una sola conversación de contexto largo puede consumir gigabytes de memoria. En entornos multiusuario, al gestionar miles de solicitudes concurrentes en ventanas de contexto que abarcan millones de tokens, la GPU HBM se agota. Los operadores deben reducir el tamaño de los lotes, acortar las ventanas de contexto o adquirir más GPU.

El almacenamiento en red tradicional no fue diseñado para patrones de acceso a caché KV, que requieren acceso aleatorio de baja latencia a potencialmente terabytes de datos transitorios distribuidos en múltiples sesiones concurrentes. La Plataforma de Almacenamiento de Memoria de Contexto de Inferencia proporciona un nivel de almacenamiento dedicado y optimizado para esta carga de trabajo, ubicado entre la GPU HBM y el almacenamiento convencional. Esto permite a las fábricas de IA escalar la capacidad de contexto independientemente del cómputo de la GPU. Anteriormente, explicamos cómo funciona la descarga de caché KV con NVIDIA Dynamo mediante un acelerador de caché KV de Pliops. NVIDIA lo escala con la Plataforma de Almacenamiento de Memoria de Contexto de Inferencia NVIDIA y lo integra en su proyecto Dynamo de código abierto. Esto proporciona el marco de software que integra las fases de precarga/descodificación desagregadas, el enrutamiento inteligente y la descarga de almacenamiento por niveles de esta nueva plataforma.

Socios de almacenamiento, como VAST Data, NetApp, DDN, Dell Technologies, HPE, Hitachi Vantara, IBM, Nutanix, Pure Storage y WEKA, están desarrollando plataformas con BlueField-4. Estas estarán disponibles en el segundo semestre de 2026.

Alpamayo: IA física basada en razonamiento para vehículos autónomos

NVIDIA anunció la familia Alpamayo de modelos de IA abiertos, herramientas de simulación y conjuntos de datos diseñados para acelerar el desarrollo seguro de vehículos autónomos (VA) basados ​​en el razonamiento. La familia Alpamayo presenta modelos de visión, lenguaje y acción basados ​​en la cadena de pensamiento y el razonamiento que incorporan un pensamiento similar al humano a la toma de decisiones de los VA. El sistema de seguridad NVIDIA Halo sustenta estos sistemas.

Las arquitecturas tradicionales de vehículos autónomos separan la percepción de la planificación, lo que puede limitar la escalabilidad cuando surgen situaciones nuevas o inusuales. La larga cola de escenarios inusuales y complejos sigue siendo uno de los mayores desafíos que los sistemas autónomos deben afrontar con seguridad. Alpamayo aborda este problema permitiendo que los modelos razonen causa-efecto, analizando escenarios novedosos paso a paso para mejorar la capacidad de conducción y la explicabilidad.

En lugar de ejecutarse directamente en el vehículo, los modelos Alpamayo sirven como modelos de aprendizaje a gran escala que los desarrolladores pueden perfeccionar y depurar para integrarlos en la estructura de sus stacks de vehículos autónomos. Los desarrolladores pueden adaptar Alpamayo a modelos de tiempo de ejecución más pequeños para el desarrollo de vehículos o usarlo como base para herramientas de desarrollo de vehículos autónomos, como evaluadores basados ​​en razonamiento y sistemas de etiquetado automático.

Modelos, simulación y conjuntos de datos abiertos de Alpamayo

Alpamayo 1 es el primer modelo VLA de razonamiento en cadena de pensamiento de la industria, diseñado para la comunidad de investigación de vehículos autónomos, disponible en Hugging Face. Con una arquitectura de 10 mil millones de parámetros, Alpamayo 1 utiliza la entrada de video para generar trayectorias junto con trazas de razonamiento, mostrando la lógica detrás de cada decisión. Alpamayo 1 proporciona ponderaciones de modelo y scripts de inferencia de código abierto. Los futuros modelos de la familia incorporarán un mayor número de parámetros, capacidades de razonamiento más detalladas, mayor flexibilidad de entrada y salida, y opciones para uso comercial.

AlpaSim es un marco de simulación integral de código abierto para el desarrollo de vehículos autónomos de alta fidelidad, disponible en GitHub. Ofrece modelado realista de sensores, dinámica de tráfico configurable y entornos de prueba escalables de bucle cerrado, lo que permite una rápida validación y el perfeccionamiento de políticas.

Los conjuntos de datos abiertos de IA física contienen más de 1,700 horas de datos de conducción recopilados en una amplia gama de geografías y condiciones, abarcando casos extremos raros y complejos del mundo real, esenciales para el desarrollo de arquitecturas de razonamiento. Estos conjuntos de datos están disponibles en Hugging Face.

Los desarrolladores pueden ajustar las versiones del modelo Alpamayo en datos de flota patentados, integrarlos en la arquitectura NVIDIA DRIVE Hyperion construida con el cómputo acelerado NVIDIA DRIVE AGX Thor y validar el rendimiento en la simulación antes de la implementación comercial.

NVIDIA DRIVE, pilas AV redundantes y Mercedes-Benz CLA

NVIDIA lleva ocho años trabajando en vehículos autónomos con un equipo de miles de personas. La compañía desarrolló la pila completa: chips (Orins duales, Thors duales de próxima generación), infraestructura (Omniverse y Cosmos), modelos (Alpamayo) y la capa de aplicación. Mercedes-Benz se asoció con NVIDIA hace cinco años para implementar esta pila.

El primer vehículo autónomo integral de NVIDIA, el Mercedes-Benz CLA, se lanzará en el primer trimestre de 2026 en Estados Unidos, en el segundo trimestre en Europa y en el tercer y cuarto trimestre en Asia. Euro NCAP otorgó al CLA la puntuación más alta en seguridad activa entre todos los vehículos presentados en 2025. Cada línea de código y cada chip del sistema cuenta con certificación de seguridad.

El sistema ejecuta dos pilas de vehículos autónomos completas en paralelo. La pila Alpamayo utiliza razonamiento en cadena de pensamiento y gestiona escenarios de conducción complejos. Una segunda pila de vehículos autónomos clásica subyacente es totalmente trazable y su construcción tardó entre seis y siete años. Un evaluador de políticas y seguridad decide qué pila utilizar según el nivel de confianza. Si Alpamayo se encuentra con un escenario en el que no tiene confianza, el sistema recurre a la pila clásica. Esta diversidad y redundancia en el software refleja cómo los sistemas críticos para la seguridad gestionan la redundancia de hardware.

NVIDIA seguirá actualizando el sistema con nuevas versiones de Alpamayo. Socios de movilidad, como JLR, Lucid, Uber y Berkeley DeepDrive, utilizan Alpamayo para el desarrollo de la autonomía de nivel 4 basada en razonamiento.

Nuevos modelos físicos de IA y anuncios de robótica

Además de sus anuncios sobre infraestructura y sistemas, NVIDIA también aprovechó el CES 2026 para impulsar su estrategia de IA física mediante el lanzamiento de nuevos modelos abiertos, marcos de trabajo y plataformas de borde para acelerar el desarrollo de la robótica. La compañía presentó actualizaciones de sus modelos de mundo Cosmos y modelos de razonamiento GR00T para el aprendizaje robótico, junto con nuevas herramientas de código abierto (incluido Isaac Lab-Arena) para la evaluación de robots a gran escala. OSMO es un marco de orquestación del borde a la nube diseñado para simplificar los flujos de trabajo de entrenamiento en entornos informáticos heterogéneos.

NVIDIA destacó la amplia adopción de su plataforma robótica en la industria, con socios como Boston Dynamics, Caterpillar, LG Electronics y NEURA Robotics, que presentaron máquinas autónomas de próxima generación basadas en tecnologías NVIDIA. La compañía también anunció una colaboración más estrecha con Hugging Face para integrar los modelos NVIDIA Isaac y GR00T en el framework de código abierto LeRobot, ampliando así el acceso a la comunidad global de desarrolladores de robótica.

En el borde, NVIDIA confirmó la disponibilidad del módulo Jetson T4000 con tecnología Blackwell, lo que supone un aumento significativo en la computación de IA y la eficiencia energética para máquinas autónomas y robótica industrial. En conjunto, estos anuncios refuerzan el esfuerzo de NVIDIA por extender su plataforma integral de IA más allá del centro de datos, abarcando simulación, modelos, computación en el borde e implementación en el mundo real en robótica y sistemas autónomos.

Interactuar con StorageReview

Boletín informativo | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed

Divyansh Jain

Ingeniero de aprendizaje automático, aficionado a los laboratorios caseros y entusiasta de la tecnología. En Storage Review, trabajo con IA y pruebas de cargas de trabajo emergentes para ofrecer información práctica y análisis de rendimiento.