Inicio EmpresaAI NVIDIA TensorRT-LLM acelera la inferencia de modelos de lenguaje grande en las GPU NVIDIA H100

NVIDIA TensorRT-LLM acelera la inferencia de modelos de lenguaje grande en las GPU NVIDIA H100

by Jordan Ranous
Bloque de GPU NVIDIA TensorRT-LLM H100

Los grandes modelos de lenguaje ofrecen nuevas capacidades increíbles, ampliando la frontera de lo que es posible con la IA. Sin embargo, su gran tamaño y sus características de ejecución únicas pueden dificultar su uso rentable. NVIDIA TensorRT-LLM ha sido de código abierto para acelerar el desarrollo de LLM.

Los grandes modelos de lenguaje ofrecen nuevas capacidades increíbles, ampliando la frontera de lo que es posible con la IA. Sin embargo, su gran tamaño y sus características de ejecución únicas pueden dificultar su uso rentable. NVIDIA TensorRT-LLM ha sido de código abierto para acelerar el desarrollo de LLM.

¿Qué es NVIDIA TensorRT-LLM?

NVIDIA ha estado trabajando estrechamente con empresas líderes, incluidas Meta, AnyScale, Cohere, Deci, Grammarly, Mistral AI, MosaicML, que ahora forma parte de Databricks, OctoML, Tabnine y Together AI para acelerar y optimizar la inferencia LLM.

NVIDIA TensorRT-LLM: los LLM están cambiando la industria

Esas innovaciones se han integrado en el código abierto. NVIDIA TensorRT-LLM software, cuyo lanzamiento está previsto para las próximas semanas. TensorRT-LLM consta del compilador de aprendizaje profundo TensorRT e incluye núcleos optimizados, pasos de pre y posprocesamiento y primitivas de comunicación multi-GPU/multi-nodo para un rendimiento innovador en las GPU NVIDIA. Permite a los desarrolladores experimentar con nuevos LLM, ofreciendo un rendimiento máximo y capacidades de personalización rápidas sin necesidad de conocimientos profundos de C++ o NVIDIA CUDA.

TensorRT-LLM mejora la facilidad de uso y la extensibilidad a través de una API Python modular de código abierto para definir, optimizar y ejecutar nuevas arquitecturas y mejoras a medida que los LLM evolucionan y se pueden personalizar fácilmente.

Por ejemplo, MosaicML ha agregado funciones específicas que necesita además de TensorRT-LLM sin problemas y las ha integrado en su pila de servicios existente. Naveen Rao, vicepresidente de ingeniería de Databricks, señala que "ha sido muy sencillo".

Rendimiento de NVIDIA TensorRT-LLM

Resumir artículos es sólo una de las muchas aplicaciones de LLM. Las siguientes pruebas comparativas muestran las mejoras de rendimiento aportadas por TensorRT-LLM en la última arquitectura NVIDIA Hopper.

Las siguientes figuras reflejan el resumen de artículos utilizando una NVIDIA A100 y una NVIDIA H100 con CNN/Daily Mail, un conocido conjunto de datos para evaluar el rendimiento del resumen.

El H100 por sí solo es 4 veces más rápido que el A100. Agregar TensorRT-LLM y sus beneficios, incluido el procesamiento por lotes en vuelo, da como resultado un aumento 8 veces para ofrecer el mayor rendimiento.

En Llama 2, un modelo de lenguaje popular lanzado recientemente por Meta y utilizado ampliamente por organizaciones que buscan incorporar IA generativa, TensorRT-LLM puede acelerar el rendimiento de inferencia 4.6 veces en comparación con las GPU A100.

La innovación del ecosistema LLM evoluciona rápidamente

El ecosistema del modelo de lenguaje grande (LLM) está evolucionando rápidamente, dando lugar a diversas arquitecturas de modelos con capacidades ampliadas. Algunos de los LLM más grandes y avanzados, como Llama 70 de 2 mil millones de parámetros de Meta, requieren múltiples GPU para proporcionar respuestas en tiempo real. Anteriormente, optimizar la inferencia de LLM para lograr el máximo rendimiento implicaba tareas complejas, como dividir manualmente los modelos de IA y coordinar la ejecución de la GPU.

TensorRT-LLM simplifica este proceso empleando paralelismo tensorial, una forma de paralelismo de modelos que distribuye matrices de peso entre dispositivos. Este enfoque permite una inferencia de escalamiento horizontal eficiente a través de múltiples GPU interconectadas a través de NVLink y múltiples servidores sin intervención del desarrollador ni modificaciones del modelo.

A medida que surgen nuevos LLM y arquitecturas de modelos, los desarrolladores pueden optimizar sus modelos utilizando los últimos kernels de IA de NVIDIA disponibles en TensorRT-LLM, que incluye implementaciones de vanguardia como FlashAttention y atención enmascarada de múltiples cabezales.

Además, TensorRT-LLM incluye versiones preoptimizadas de LLM ampliamente utilizados, como Meta Llama 2, OpenAI GPT-2, GPT-3, Falcon, Mosaic MPT, BLOOM y otros. Estos se pueden implementar fácilmente utilizando la API Python TensorRT-LLM fácil de usar, lo que permite a los desarrolladores crear LLM personalizados adaptados a diversas industrias.

Para abordar la naturaleza dinámica de las cargas de trabajo de LLM, TensorRT-LLM introduce procesamiento por lotes en vuelo, optimizando la programación de solicitudes. Esta técnica mejora la utilización de la GPU y casi duplica el rendimiento en solicitudes de LLM del mundo real, lo que reduce el costo total de propiedad (TCO).

Bloque de GPU Dell XE9680

Bloque de GPU Dell XE9680

Además, TensorRT-LLM utiliza técnicas de cuantificación para representar los pesos y activaciones del modelo con menor precisión (por ejemplo, FP8). Esto reduce el consumo de memoria, lo que permite que modelos más grandes se ejecuten de manera eficiente en el mismo hardware y al mismo tiempo minimiza la sobrecarga relacionada con la memoria durante la ejecución.

El ecosistema LLM está avanzando rápidamente y ofrece mayores capacidades y aplicaciones en todas las industrias. TensorRT-LLM agiliza la inferencia de LLM, mejorando el rendimiento y el TCO. Permite a los desarrolladores optimizar modelos de forma fácil y eficiente. Para acceder a TensorRT-LLM, los desarrolladores e investigadores pueden participar en el programa de acceso temprano a través del marco NVIDIA NeMo o GitHub, siempre que estén registrados en el Programa para desarrolladores de NVIDIA con la dirección de correo electrónico de una organización.

Pensamientos Finales

Durante mucho tiempo hemos notado en The Lab que hay gastos generales disponibles que la pila de software está subutilizando, y TensorRT-LLM deja en claro que renovar el enfoque en las optimizaciones y no solo en la innovación puede ser extremadamente valioso. A medida que continuamos experimentando localmente con varios marcos y tecnología de vanguardia, planeamos probar y validar de forma independiente estos avances de las versiones mejoradas de la biblioteca y el SDK.

Es evidente que NVIDIA está invirtiendo tiempo y recursos de desarrollo para exprimir hasta la última gota de rendimiento de su hardware, solidificando aún más su posición como líder de la industria y continuando con sus contribuciones a la comunidad y la democratización de la IA manteniendo la naturaleza de código abierto de las herramientas. .

Interactuar con StorageReview

Boletín | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed