StorageReview.com

NVIDIA establece récords de inferencia MLPerf v6.0 con la plataforma Blackwell Ultra.

AI  ◇  Empresa

NVIDIA ha publicado resultados Para MLPerf Inference v6.0, se destacan las mejoras a nivel de sistema impulsadas por un diseño conjunto riguroso entre hardware, software y modelos. La compañía posiciona el rendimiento de inferencia y la economía de tokens como las métricas principales para el desempeño de la fábrica de IA, yendo más allá de las especificaciones máximas del acelerador para centrarse en la producción medida bajo cargas de trabajo reales.

En esta ronda, los sistemas basados ​​en GPU NVIDIA Blackwell Ultra ofrecieron el mayor rendimiento en todos los modelos y escenarios presentados. El ecosistema en torno a la plataforma también se amplió, con 14 socios que presentaron resultados, entre ellos importantes fabricantes de equipos originales (OEM), proveedores de servicios en la nube e integradores como ASUS, Cisco, CoreWeave, Dell Technologies, GigaComputing, Google Cloud, HPE, Lenovo, Nebius, Netweb Technology, QCT, Red Hat, Supermicro y Lambda.

La cobertura ampliada de los puntos de referencia refleja las cargas de trabajo emergentes.

MLPerf Inference v6.0 introduce varios nuevos benchmarks para representar mejor las implementaciones actuales de IA. NVIDIA fue el único proveedor que presentó pruebas para todos los nuevos tests, que abarcan modelos de lenguaje complejos, sistemas multimodales, vídeo generativo y motores de recomendación.

Entre las novedades más importantes se incluye DeepSeek-R1 Interactive, que evalúa una mayor interactividad con una entrega de tokens más rápida y un tiempo reducido para obtener el primer token en comparación con los escenarios de servidor anteriores. El conjunto también incorpora Qwen3-VL-235B-A22B, el primer modelo multimodal de visión y lenguaje en MLPerf Inference, y GPT-OSS-120B, un modelo de razonamiento de mezcla de expertos probado en escenarios offline, de servidor e interactivos.

Escenario DeepSeek-R1 GPT-OSS-120B Qwen3-VL Wan 2.2 DLRMv3
Sin publicar 2,494,310 tokens/seg* 1,046,150 tokens/seg 79 muestras / seg 0.059 muestras / seg 104,637 muestras / seg
Server 1,555,110 tokens/seg* 1,096,770 tokens/seg 68 consultas/segundo 21 segundos**
(Flujo único)
99,997 consultas/segundo
Interactivo 250,634 tokens/seg 677,199 tokens/seg *** *** ***

* No es un escenario nuevo en MLPerf Inference v6.0
** Wan 2.2 presenta un escenario de flujo único, que mide la latencia de la solicitud de extremo a extremo, en lugar de un escenario de servidor. Cuanto menor sea el valor, mejor.
*** No probado en MLPerf Inference v6.0

Ahora se incluyen cargas de trabajo de medios generativos y recomendaciones. El modelo de conversión de texto a vídeo Wan 2.2 presenta pruebas tanto sensibles a la latencia como centradas en el rendimiento, mientras que DLRMv3 reemplaza los puntos de referencia de recomendación anteriores con una arquitectura basada en transformadores que aumenta la intensidad de cálculo y la complejidad del modelo.

La optimización del software genera mejoras cuantificables.

Un aspecto destacable de esta presentación es la mejora del rendimiento lograda en el hardware existente mediante actualizaciones de software. NVIDIA informa de un rendimiento de tokens hasta 2.7 veces superior en la plataforma GB300 NVL72 para escenarios de servidor DeepSeek-R1, en comparación con los resultados de seis meses antes. Esta mejora se traduce en un coste por token considerablemente menor y una mayor utilización de la infraestructura desplegada.

Gráficos NVIDIA MLPerf v6

Estas mejoras se atribuyen a las actualizaciones de la pila TensorRT-LLM y sus marcos de trabajo asociados. Las optimizaciones a nivel de kernel y las técnicas de fusión reducen la sobrecarga de ejecución, mientras que el paralelismo de datos de atención mejorado equilibra de forma más eficaz las cargas de trabajo entre las GPU. Las mejoras adicionales en el marco de inferencia distribuida Dynamo permiten la distribución desagregada, lo que posibilita la optimización independiente de las fases de precarga y decodificación.

Para modelos de mezcla de expertos, técnicas como Wide Expert Parallel distribuyen los pesos de los expertos entre las GPU para reducir los cuellos de botella de memoria. La predicción de múltiples tokens aumenta la eficiencia computacional en escenarios de bajo volumen de datos y sensibles a la latencia, al generar y validar varios tokens a la vez. El enrutamiento con conocimiento de clave-valor mejora aún más la planificación al dirigir las solicitudes de inferencia en función de los costos computacionales estimados.

GB300 NVL72
v5.1
GB300 NVL72
v6.0
Acelerar
DeepSeek-R1
(Servidor)
2,907 tokens/seg/gpu 8,064 tokens/seg/gpu 2.77x
DeepSeek-R1
(Desconectado)
5,842 tokens/seg/gpu 9,821 tokens/seg/gpu 1.68x
Llama 3.1 405B
(Servidor)
170 tokens/seg/gpu 259 tokens/seg/gpu 1.52x
Llama 3.1 405B
(Desconectado)
224 tokens/seg/gpu 271 tokens/seg/gpu 1.21x

NVIDIA también demostró una escalabilidad continua en modelos ya establecidos. En Llama 3.1 405B, la plataforma GB300 NVL72 logró un aumento de rendimiento de 1.5 veces en escenarios de servidor, lo que indica una optimización continua para LLM densos junto con arquitecturas más recientes.

Integración de ecosistemas y marcos de trabajo abiertos

Las pruebas realizadas en las nuevas cargas de trabajo utilizaron una combinación de frameworks de NVIDIA y de código abierto. La prueba de rendimiento Qwen3-VL empleó el framework vLLM, lo que refleja el rápido desarrollo de la optimización de la inferencia multimodal. Los resultados de la prueba de conversión de texto a vídeo Wan 2.2 se basaron en TensorRT-LLM VisualGen, optimizado para pipelines basados ​​en difusión en GPU.

Para DLRMv3, NVIDIA combinó su marco de trabajo recsys-example con tecnologías de búsqueda de incrustaciones aceleradas por GPU para gestionar las crecientes exigencias de los modelos de recomendación basados ​​en transformadores. Estas integraciones ponen de manifiesto el papel fundamental del ecosistema de software en general para optimizar el rendimiento del hardware subyacente.

Rendimiento escalable con InfiniBand

NVIDIA también demostró un rendimiento de inferencia a gran escala utilizando cuatro sistemas GB300 NVL72 conectados mediante Quantum-X800 InfiniBand. Esta configuración, con un total de 288 GPU Blackwell Ultra, representa la mayor prueba de inferencia de MLPerf hasta la fecha y alcanzó un rendimiento a nivel de sistema de millones de tokens por segundo en DeepSeek-R1.

DeepSeek-R1 | 4x GB300 NVL72 Fichas/Segundo
Sin publicar 2,494,310
Server 1,555,110

Los resultados ponen de relieve la importancia de las interconexiones de alto rendimiento para escalar las cargas de trabajo de inferencia, en particular para el servicio LLM distribuido y el procesamiento por lotes de alto rendimiento.

Hacia la evaluación comparativa del nivel de servicio

De cara al futuro, NVIDIA está colaborando en el desarrollo de MLPerf Endpoints dentro del consorcio MLCommons. Esta próxima prueba de rendimiento tiene como objetivo medir los servicios de inferencia implementados utilizando tráfico API real, lo que permitirá comprender la latencia, el rendimiento y la eficiencia a nivel de servicio, en lugar de solo a nivel de componente.

A medida que las cargas de trabajo de IA evolucionan hacia sistemas con agentes y ventanas de contexto más amplias, se espera que los puntos de referencia que miden el rendimiento del servicio de extremo a extremo adquieran mayor importancia tanto para los proveedores de la nube como para las implementaciones empresariales.

Interactuar con StorageReview

Boletín informativo | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed

harold fritts

He estado en la industria de la tecnología desde que IBM creó Selectric. Mi experiencia, sin embargo, es la escritura. Así que decidí dejar el negocio de preventa y volver a mis raíces, escribir un poco pero seguir involucrado en tecnología.