StorageReview.com

AMD Instinct MI355X logra mejoras en MLPerf Inference v6.0 con más de 1 millón de tokens por segundo y admite la pila ROCm escalable.

AI  ◇  Empresa

AMD ha publicado sus resultados de MLPerf Inference v6.0, posicionando el Instinto GPU MI355X Como plataforma de inferencia escalable para implementaciones de nodo único, multinodo y heterogéneas. La propuesta va más allá de las mejoras incrementales al incorporar nuevas cargas de trabajo, demostrando un rendimiento a escala de clúster superior a 1 millón de tokens por segundo y validando la reproducibilidad en un ecosistema de socios en constante crecimiento.

La arquitectura CDNA 4 está diseñada para la inferencia de alta capacidad.

La GPU Instinct MI355X se basa en CDNA 4 de AMD Arquitectura basada en un proceso FinFET de 3 nm | 6 nm de TSMC (utiliza un diseño de chiplet de doble proceso: los chips de cómputo (XCD) utilizan el nodo de 3 nm de TSMC, mientras que los chips de E/S utilizan el de 6 nm), integrando 185 mil millones de transistores y admitiendo los formatos de datos FP4 y FP6. Cabe destacar que esto se aplica a todo el paquete multichiplet, no a un chip monolítico. Cada GPU incluye hasta 288 GB de memoria HBM3E, lo que permite admitir modelos de hasta 520 mil millones de parámetros en un solo dispositivo. AMD considera que esta combinación de densidad de cómputo y capacidad de memoria es fundamental para la inferencia de modelos grandes sin una partición excesiva del modelo.

La plataforma está disponible en configuraciones UBB8 con opciones de refrigeración por aire y refrigeración líquida directa, lo que se ajusta a los requisitos de implementación de los centros de datos.

El rendimiento de múltiples nodos supera el millón de tokens por segundo.

Un resultado clave de esta ronda es que AMD superó el millón de tokens por segundo a escala de clúster. Utilizando GPU Instinct MI355X, AMD alcanzó este umbral en Llama 2 70B tanto en escenarios de servidor como sin conexión, y en GPT-OSS-120B en el escenario sin conexión.

Gráfico de AMD MLPerf de 1 millón de tokens por segundo

Estos resultados reflejan un cambio hacia la evaluación del rendimiento de la inferencia a nivel de clúster en lugar de por acelerador. El rendimiento agregado y el tiempo de servicio se utilizan cada vez más para determinar la preparación para la producción en implementaciones de IA a gran escala.

AMD también demostró una escalabilidad eficiente. En Llama 2 70B, una configuración de 11 nodos y 87 GPU alcanzó más de un millón de tokens por segundo en escenarios Offline, Server e Interactive, con una eficiencia de escalabilidad que osciló entre el 93 % y el 98 %. En GPT-OSS-120B, un clúster de 12 nodos y 94 GPU logró un rendimiento similar con una eficiencia de escalabilidad superior al 90 %. Estos resultados indican que las mejoras de rendimiento se traducen eficazmente a medida que las implementaciones se extienden más allá de un solo sistema.

Ganancias generacionales y rendimiento competitivo de nodos únicos

AMD informó un aumento de rendimiento de 3.1 veces en el servidor Llama 2 70B en comparación con la generación anterior Instinct MI325X, alcanzando 100 282 tokens por segundo. Esta mejora refleja tanto cambios arquitectónicos como optimizaciones del software ROCm. Las puntuaciones offline mejoraron 4.4 veces y las del servidor 4.8 veces en comparación con las rondas anteriores. Estas mejoras se atribuyen principalmente a la cuantización FP4.

Resultados de inferencia de AMD frente a gráficos de la generación anterior

En comparaciones de nodo único, MI355X demostró una posición competitiva frente a las plataformas NVIDIA. En Llama 2 70B, AMD igualó el rendimiento offline de NVIDIA B200, alcanzó una paridad casi total en rendimiento de servidor y superó el rendimiento interactivo. Frente a la B300 de Nvidia, la GPU de AMD ofrece un 92 % en modo offline, un 93 % en modo servidor y la supera con un 104 % en modo interactivo.

La habilitación del modelo por primera vez amplía la cobertura.

MLPerf Inference v6.0 incluye varias cargas de trabajo nuevas, y AMD aprovechó esta ronda para demostrar la rápida habilitación de modelos. GPT-OSS-120B, un modelo de mezcla de expertos, se presentó por primera vez y obtuvo resultados competitivos en comparación con los sistemas NVIDIA tanto en escenarios offline como en servidores.

AMD también presentó resultados para la generación de texto a video con Wan-2.2, lo que marca su entrada en la inferencia de video multimodal y generativa. Si bien la presentación oficial se centró en la latencia de flujo único, los resultados fueron competitivos con los de las plataformas existentes. La optimización posterior a la presentación mejoró aún más el rendimiento, lo que indica margen de mejora a medida que el software madura.

Estas incorporaciones ponen de relieve el interés de AMD por ir más allá de los benchmarks LLM tradicionales para dar soporte a las cargas de trabajo de IA emergentes.

El software ROCm permite la escalabilidad y la inferencia heterogénea.

AMD atribuye gran parte del rendimiento y la escalabilidad a su pila de software ROCm. Las mejoras incluyen una ejecución FP4 optimizada, una comunicación mejorada entre GPU para la inferencia distribuida y compatibilidad con la distribución dinámica de cargas de trabajo en entornos heterogéneos.

Resultados de inferencia de AMD MLPerf con la tarjeta gráfica Instinct mI355x

La configuración inicial heterogénea de MLPerf se desarrolló utilizando tres modelos de GPU AMD Instinct: MI300X, MI325X y MI355X. Presentada por Dell y MangoBoost, la configuración alcanzó 141,521 tokens por segundo en Llama 2 70B Server y 151,843 tokens por segundo en Llama 2 70B Offline.

Cabe destacar que la plataforma AMD Instinct MI355X se encontraba en el laboratorio de Dell en Estados Unidos, mientras que las plataformas Instinct MI300X y MI325X estaban en Corea. Esto demuestra la capacidad de coordinar sistemas en distintas ubicaciones geográficas.

Crecimiento y reproducibilidad del ecosistema

El ecosistema de socios de AMD se amplió en esta ronda de MLPerf, con nueve empresas que presentaron resultados de varias generaciones de GPU Instinct. Entre los proveedores participantes se encontraban Cisco, Dell, Giga Computing, HPE, MangoBoost, MiTAC, Oracle, Supermicro y Red Hat.

Los resultados presentados por los socios coincidieron en gran medida con los resultados internos de AMD, generalmente con una diferencia inferior al 4 % y, en algunos casos, incluso inferior al 1 %. Esta consistencia indica que el rendimiento es reproducible en plataformas OEM y en la nube, lo que reduce el riesgo de implementación y aumenta la confianza en los resultados reales.

Interactuar con StorageReview

Boletín informativo | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed

harold fritts

He estado en la industria de la tecnología desde que IBM creó Selectric. Mi experiencia, sin embargo, es la escritura. Así que decidí dejar el negocio de preventa y volver a mis raíces, escribir un poco pero seguir involucrado en tecnología.