Acceuil EntrepriseAI NVIDIA TensorRT-LLM accélère l'inférence de grands modèles de langage sur les GPU NVIDIA H100

NVIDIA TensorRT-LLM accélère l'inférence de grands modèles de langage sur les GPU NVIDIA H100

by Jordan Ranous
Bloc GPU NVIDIA TensorRT-LLM H100

Les grands modèles de langage offrent de nouvelles capacités incroyables, repoussant les frontières de ce qui est possible avec l’IA. Cependant, leur grande taille et leurs caractéristiques d’exécution uniques peuvent rendre difficile leur utilisation rentable. NVIDIA TensorRT-LLM a été open source pour accélérer le développement des LLM.

Les grands modèles de langage offrent de nouvelles capacités incroyables, repoussant les frontières de ce qui est possible avec l’IA. Cependant, leur grande taille et leurs caractéristiques d’exécution uniques peuvent rendre difficile leur utilisation rentable. NVIDIA TensorRT-LLM a été open source pour accélérer le développement des LLM.

Qu'est-ce que NVIDIA TensorRT-LLM ?

NVIDIA a travaillé en étroite collaboration avec des entreprises de premier plan, notamment Meta, AnyScale, Cohere, Deci, Grammarly, Mistral AI, MosaicML, qui fait désormais partie de Databricks, OctoML, Tabnine et Together AI, pour accélérer et optimiser l'inférence LLM.

NVIDIA TensorRT-LLM - Les LLM changent l'industrie

Ces innovations ont été intégrées dans l'open source NVIDIA TensorRT-LLM logiciel, dont la sortie est prévue dans les semaines à venir. TensorRT-LLM se compose du compilateur d'apprentissage en profondeur TensorRT et comprend des noyaux optimisés, des étapes de pré- et post-traitement et des primitives de communication multi-GPU/multi-nœuds pour des performances révolutionnaires sur les GPU NVIDIA. Il permet aux développeurs d'expérimenter de nouveaux LLM, offrant des performances optimales et des capacités de personnalisation rapides sans nécessiter de connaissances approfondies en C++ ou NVIDIA CUDA.

TensorRT-LLM améliore la facilité d'utilisation et l'extensibilité grâce à une API Python modulaire open source pour définir, optimiser et exécuter de nouvelles architectures et améliorations à mesure que les LLM évoluent et peuvent être facilement personnalisées.

Par exemple, MosaicML a ajouté de manière transparente les fonctionnalités spécifiques dont il a besoin en plus de TensorRT-LLM et les a intégrées dans leur pile de services existante. Naveen Rao, vice-président de l'ingénierie chez Databricks, note que « cela a été un jeu d'enfant ».

Performances NVIDIA TensorRT-LLM

Résumer des articles n'est qu'une des nombreuses applications de LLM. Les benchmarks suivants montrent les améliorations de performances apportées par TensorRT-LLM sur la dernière architecture NVIDIA Hopper.

Les figures suivantes reflètent le résumé d'articles à l'aide d'un NVIDIA A100 et d'un NVIDIA H100 avec CNN/Daily Mail, un ensemble de données bien connu pour évaluer les performances de résumé.

Le H100 à lui seul est 4 fois plus rapide que l’A100. L'ajout de TensorRT-LLM et de ses avantages, notamment le traitement par lots en vol, entraîne une multiplication par 8 pour offrir le débit le plus élevé.

Sur Llama 2 – un modèle de langage populaire publié récemment par Meta et largement utilisé par les organisations cherchant à intégrer l'IA générative – TensorRT-LLM peut accélérer les performances d'inférence de 4.6 fois par rapport aux GPU A100.

L'innovation de l'écosystème LLM évolue rapidement

L'écosystème du Large Language Model (LLM) évolue rapidement, donnant naissance à diverses architectures de modèles dotées de capacités étendues. Certains des LLM les plus grands et les plus avancés, comme Llama 70 de Meta, doté de 2 milliards de paramètres, nécessitent plusieurs GPU pour fournir des réponses en temps réel. Auparavant, l'optimisation de l'inférence LLM pour des performances optimales impliquait des tâches complexes telles que la division manuelle des modèles d'IA et la coordination de l'exécution du GPU.

TensorRT-LLM simplifie ce processus en utilisant le parallélisme tensoriel, une forme de parallélisme de modèle qui distribue les matrices de poids entre les appareils. Cette approche permet une inférence évolutive efficace sur plusieurs GPU interconnectés via NVLink et plusieurs serveurs sans intervention du développeur ni modification du modèle.

À mesure que de nouveaux LLM et architectures de modèles émergent, les développeurs peuvent optimiser leurs modèles à l'aide des derniers noyaux NVIDIA AI disponibles dans TensorRT-LLM, qui incluent des implémentations de pointe telles que FlashAttention et une attention multi-tête masquée.

De plus, TensorRT-LLM comprend des versions pré-optimisées de LLM largement utilisés, tels que Meta Llama 2, OpenAI GPT-2, GPT-3, Falcon, Mosaic MPT, BLOOM et autres. Ceux-ci peuvent être facilement mis en œuvre à l’aide de l’API Python conviviale TensorRT-LLM, permettant aux développeurs de créer des LLM personnalisés adaptés à divers secteurs.

Pour répondre à la nature dynamique des charges de travail LLM, TensorRT-LLM introduit le traitement par lots en vol, optimisant la planification des requêtes. Cette technique améliore l'utilisation du GPU et double presque le débit sur les requêtes LLM du monde réel, réduisant ainsi le coût total de possession (TCO).

Bloc GPU Dell XE9680

Bloc GPU Dell XE9680

De plus, TensorRT-LLM utilise des techniques de quantification pour représenter les poids et les activations du modèle avec une précision moindre (par exemple, FP8). Cela réduit la consommation de mémoire, permettant aux modèles plus grands de s'exécuter efficacement sur le même matériel tout en minimisant la surcharge liée à la mémoire pendant l'exécution.

L'écosystème LLM évolue rapidement, offrant de plus grandes capacités et applications dans tous les secteurs. TensorRT-LLM rationalise l'inférence LLM, améliorant ainsi les performances et le TCO. Il permet aux développeurs d'optimiser les modèles facilement et efficacement. Pour accéder à TensorRT-LLM, les développeurs et les chercheurs peuvent participer au programme d'accès anticipé via le framework NVIDIA NeMo ou GitHub, à condition qu'ils soient enregistrés dans le programme pour développeurs NVIDIA avec l'adresse e-mail d'une organisation.

Réflexions de clôture

Nous notons depuis longtemps dans The Lab qu'il existe des frais généraux disponibles qui sont sous-utilisés par la pile logicielle, et TensorRT-LLM indique clairement que le fait de recentrer l'attention sur les optimisations et pas seulement sur l'innovation peut être extrêmement précieux. Alors que nous continuons à expérimenter localement divers frameworks et technologies de pointe, nous prévoyons de tester et de valider de manière indépendante les gains issus de la bibliothèque améliorée et des versions du SDK.

NVIDIA consacre clairement du temps et des ressources au développement pour tirer le meilleur parti des performances de son matériel, renforçant ainsi sa position de leader du secteur et poursuivant ses contributions à la communauté et à la démocratisation de l'IA en conservant la nature open source des outils. .

S'engager avec StorageReview

Newsletter |  YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Flux RSS