NVIDIA ha publicado resultados Para MLPerf Inference v6.0, se destacan las mejoras a nivel de sistema impulsadas por un diseño conjunto riguroso entre hardware, software y modelos. La compañía posiciona el rendimiento de inferencia y la economía de tokens como las métricas principales para el desempeño de la fábrica de IA, yendo más allá de las especificaciones máximas del acelerador para centrarse en la producción medida bajo cargas de trabajo reales.
En esta ronda, los sistemas basados en GPU NVIDIA Blackwell Ultra ofrecieron el mayor rendimiento en todos los modelos y escenarios presentados. El ecosistema en torno a la plataforma también se amplió, con 14 socios que presentaron resultados, entre ellos importantes fabricantes de equipos originales (OEM), proveedores de servicios en la nube e integradores como ASUS, Cisco, CoreWeave, Dell Technologies, GigaComputing, Google Cloud, HPE, Lenovo, Nebius, Netweb Technology, QCT, Red Hat, Supermicro y Lambda.
La cobertura ampliada de los puntos de referencia refleja las cargas de trabajo emergentes.
MLPerf Inference v6.0 introduce varios nuevos benchmarks para representar mejor las implementaciones actuales de IA. NVIDIA fue el único proveedor que presentó pruebas para todos los nuevos tests, que abarcan modelos de lenguaje complejos, sistemas multimodales, vídeo generativo y motores de recomendación.
Entre las novedades más importantes se incluye DeepSeek-R1 Interactive, que evalúa una mayor interactividad con una entrega de tokens más rápida y un tiempo reducido para obtener el primer token en comparación con los escenarios de servidor anteriores. El conjunto también incorpora Qwen3-VL-235B-A22B, el primer modelo multimodal de visión y lenguaje en MLPerf Inference, y GPT-OSS-120B, un modelo de razonamiento de mezcla de expertos probado en escenarios offline, de servidor e interactivos.
| Escenario | DeepSeek-R1 | GPT-OSS-120B | Qwen3-VL | Wan 2.2 | DLRMv3 |
|---|---|---|---|---|---|
| Sin publicar | 2,494,310 tokens/seg* | 1,046,150 tokens/seg | 79 muestras / seg | 0.059 muestras / seg | 104,637 muestras / seg |
| Server | 1,555,110 tokens/seg* | 1,096,770 tokens/seg | 68 consultas/segundo | 21 segundos** (Flujo único) |
99,997 consultas/segundo |
| Interactivo | 250,634 tokens/seg | 677,199 tokens/seg | *** | *** | *** |
* No es un escenario nuevo en MLPerf Inference v6.0
** Wan 2.2 presenta un escenario de flujo único, que mide la latencia de la solicitud de extremo a extremo, en lugar de un escenario de servidor. Cuanto menor sea el valor, mejor.
*** No probado en MLPerf Inference v6.0
Ahora se incluyen cargas de trabajo de medios generativos y recomendaciones. El modelo de conversión de texto a vídeo Wan 2.2 presenta pruebas tanto sensibles a la latencia como centradas en el rendimiento, mientras que DLRMv3 reemplaza los puntos de referencia de recomendación anteriores con una arquitectura basada en transformadores que aumenta la intensidad de cálculo y la complejidad del modelo.
La optimización del software genera mejoras cuantificables.
Un aspecto destacable de esta presentación es la mejora del rendimiento lograda en el hardware existente mediante actualizaciones de software. NVIDIA informa de un rendimiento de tokens hasta 2.7 veces superior en la plataforma GB300 NVL72 para escenarios de servidor DeepSeek-R1, en comparación con los resultados de seis meses antes. Esta mejora se traduce en un coste por token considerablemente menor y una mayor utilización de la infraestructura desplegada.
Estas mejoras se atribuyen a las actualizaciones de la pila TensorRT-LLM y sus marcos de trabajo asociados. Las optimizaciones a nivel de kernel y las técnicas de fusión reducen la sobrecarga de ejecución, mientras que el paralelismo de datos de atención mejorado equilibra de forma más eficaz las cargas de trabajo entre las GPU. Las mejoras adicionales en el marco de inferencia distribuida Dynamo permiten la distribución desagregada, lo que posibilita la optimización independiente de las fases de precarga y decodificación.
Para modelos de mezcla de expertos, técnicas como Wide Expert Parallel distribuyen los pesos de los expertos entre las GPU para reducir los cuellos de botella de memoria. La predicción de múltiples tokens aumenta la eficiencia computacional en escenarios de bajo volumen de datos y sensibles a la latencia, al generar y validar varios tokens a la vez. El enrutamiento con conocimiento de clave-valor mejora aún más la planificación al dirigir las solicitudes de inferencia en función de los costos computacionales estimados.
| GB300 NVL72 v5.1 |
GB300 NVL72 v6.0 |
Acelerar | |
|---|---|---|---|
| DeepSeek-R1 (Servidor) |
2,907 tokens/seg/gpu | 8,064 tokens/seg/gpu | 2.77x |
| DeepSeek-R1 (Desconectado) |
5,842 tokens/seg/gpu | 9,821 tokens/seg/gpu | 1.68x |
| Llama 3.1 405B (Servidor) |
170 tokens/seg/gpu | 259 tokens/seg/gpu | 1.52x |
| Llama 3.1 405B (Desconectado) |
224 tokens/seg/gpu | 271 tokens/seg/gpu | 1.21x |
NVIDIA también demostró una escalabilidad continua en modelos ya establecidos. En Llama 3.1 405B, la plataforma GB300 NVL72 logró un aumento de rendimiento de 1.5 veces en escenarios de servidor, lo que indica una optimización continua para LLM densos junto con arquitecturas más recientes.
Integración de ecosistemas y marcos de trabajo abiertos
Las pruebas realizadas en las nuevas cargas de trabajo utilizaron una combinación de frameworks de NVIDIA y de código abierto. La prueba de rendimiento Qwen3-VL empleó el framework vLLM, lo que refleja el rápido desarrollo de la optimización de la inferencia multimodal. Los resultados de la prueba de conversión de texto a vídeo Wan 2.2 se basaron en TensorRT-LLM VisualGen, optimizado para pipelines basados en difusión en GPU.
Para DLRMv3, NVIDIA combinó su marco de trabajo recsys-example con tecnologías de búsqueda de incrustaciones aceleradas por GPU para gestionar las crecientes exigencias de los modelos de recomendación basados en transformadores. Estas integraciones ponen de manifiesto el papel fundamental del ecosistema de software en general para optimizar el rendimiento del hardware subyacente.
Rendimiento escalable con InfiniBand
NVIDIA también demostró un rendimiento de inferencia a gran escala utilizando cuatro sistemas GB300 NVL72 conectados mediante Quantum-X800 InfiniBand. Esta configuración, con un total de 288 GPU Blackwell Ultra, representa la mayor prueba de inferencia de MLPerf hasta la fecha y alcanzó un rendimiento a nivel de sistema de millones de tokens por segundo en DeepSeek-R1.
| DeepSeek-R1 | 4x GB300 NVL72 | Fichas/Segundo |
|---|---|
| Sin publicar | 2,494,310 |
| Server | 1,555,110 |
Los resultados ponen de relieve la importancia de las interconexiones de alto rendimiento para escalar las cargas de trabajo de inferencia, en particular para el servicio LLM distribuido y el procesamiento por lotes de alto rendimiento.
Hacia la evaluación comparativa del nivel de servicio
De cara al futuro, NVIDIA está colaborando en el desarrollo de MLPerf Endpoints dentro del consorcio MLCommons. Esta próxima prueba de rendimiento tiene como objetivo medir los servicios de inferencia implementados utilizando tráfico API real, lo que permitirá comprender la latencia, el rendimiento y la eficiencia a nivel de servicio, en lugar de solo a nivel de componente.
A medida que las cargas de trabajo de IA evolucionan hacia sistemas con agentes y ventanas de contexto más amplias, se espera que los puntos de referencia que miden el rendimiento del servicio de extremo a extremo adquieran mayor importancia tanto para los proveedores de la nube como para las implementaciones empresariales.




Amazon