Le L40S comble une lacune cruciale dans l'écosystème GPU des centres de données. Alors que les GPU d'entraînement IA axés sur le calcul, comme le Nvidia H100, privilégient les performances brutes sans accélération graphique, les cartes de visualisation professionnelles traditionnelles manquent généralement des capacités de calcul IA requises par les charges de travail d'inférence modernes et les nouvelles applications graphiques pilotées par l'IA. Ce positionnement le rend particulièrement précieux pour la génération de données synthétiques, le développement d'IA multimodale et les applications Omniverse, où les performances de calcul et graphiques sont essentielles.
Spécifications NVIDIA L40S
| Spécifications | L40 | L40S | PCIe H100 80G |
| Architecture GPU | Ada Lovelace | Ada Lovelace | Hopper |
| Matrice GPU | AD102 | AD102 | GH100 |
| Cœurs de CUDA | 18,176 | 18,176 | 14,592 |
| Noyaux de tenseurs | 568 (4e génération) | 568 (4e génération) | 456 |
| RT Cœurs | 142 (3e génération) | 142 (3e génération) | - |
| Mémoire GPU | 48 Go GDDR6 avec ECC | 48 Go GDDR6 avec ECC | 80 Go HBM2e |
| Bande passante mémoire | 864 GB / s | 864 GB / s | 2 TB / s |
| Interface de mémoire | 384-bits | 384-bits | 5120-bits |
| Consommation maximale | 300W | 350W | 350W |
| Facteur de forme | 4.4″ H x 10.5″ L : Double fente | 4.4″ H x 10.5″ L : Double fente | 4.4″ H x 10.5″ L : Double fente |
| Solution thermique | Revenu | Revenu | Revenu |
| Connecteurs d'affichage | 4x DisplayPort 1.4a | 4x DisplayPort 1.4a | - |
| Interface PCIe | Gen4 x16 | Gen4 x16 | Gen5 x16 |
| Câble d'alimentation | 16 broches | 16 broches | 16 broches |
| Prise en charge vGPU | Oui | Oui | Non |
| GPU multi-instances (MiG) | Non | Non | Oui |
| Prise en charge de NVLink | Non | Non | Non |
Caractéristiques de performances
| Métrique | Performances du L40 | Performances du L40S | Performances du H100 |
| Performances FP32 | 90.5 TFLOPS | 91.6 TFLOPS | 51.2 TFLOPS |
| Noyau tenseur TF32 | 362.1 TFLOPS | 366 TFLOPS | 756 TFLOPS |
| Noyau tenseur FP16 | 724 TFLOPS | 733 TFLOPS | 1513 TFLOPS |
| Noyau tenseur FP8 | 1,448 TFLOPS | 1,466 TFLOPS | 3026 TFLOPS |
| Pic du tenseur INT8 TOPS | 1,448 TFLOPS | 1,466 TFLOPS | 3026 TOPS |
| Performances de base RT | 209 TFLOPS | 212 TFLOPS | - |
(Les chiffres de performance sont avec parcimonie)
NVIDIA L40S contre H100
Un examen détaillé des spécifications révèle les philosophies de conception distinctes des NVIDIA L40S et H100. Le L40S repose sur l'architecture Ada Lovelace, utilisant la même matrice AD102 que celle des cartes graphiques NVIDIA haut de gamme pour stations de travail. Cet héritage lui confère un nombre impressionnant de 18,176 32 cœurs CUDA, offrant d'excellentes performances FP100 en simple précision, pierre angulaire du rendu graphique traditionnel et du calcul scientifique. En revanche, l'architecture Hopper et la matrice GH100 du HXNUMX sont avant tout conçues pour les charges de travail d'IA et de calcul haute performance.
Le différenciateur le plus marquant réside dans la configuration des cœurs. Le L40S comprend 142 cœurs RT de troisième génération et 568 cœurs Tensor de quatrième génération. Les cœurs RT sont des composants spécialisés pour l'accélération du ray tracing, une fonctionnalité totalement absente du H100, ce qui confère au L40S une capacité unique de rendu photoréaliste. Bien que le H100 dispose de moins de cœurs Tensor, ceux-ci sont plus rapides et plus avancés, optimisés pour les nouveaux formats de données d'IA comme FP8, ce qui lui confère une avance considérable en termes de performances d'IA brute.
Ce compromis est également évident au niveau des sous-systèmes mémoire. Le H100 utilise 80 Go de mémoire HBM2e onéreuse, offrant une bande passante impressionnante de 2 To/s. Ceci est essentiel pour alimenter les SM lors de l'entraînement et de l'inférence de modèles d'IA à grande échelle. Le L40S utilise une mémoire GDDR48 plus conventionnelle de 6 Go, offrant une bande passante de 864 Go/s. Bien que inférieure à la moitié de celle du H100, cette capacité reste conséquente, parfaitement adaptée au chargement de grandes scènes 3D, de textures haute résolution et de modèles d'IA volumineux pour l'inférence.
Enfin, l'ensemble des fonctionnalités décrit leurs rôles respectifs. Le L40S comprend quatre sorties DisplayPort 1.4a et une prise en charge robuste des vGPU, ce qui le rend idéal pour les stations de travail virtualisées, les fermes de rendu et les déploiements de cloud gaming. Le H100, dépourvu de sorties d'affichage et de capacités vGPU, intègre la technologie GPU multi-instances (MiG), qui permet de le partitionner en plusieurs instances GPU plus petites et isolées pour gérer simultanément plusieurs charges de travail gourmandes en ressources de calcul. La conception thermique passive à double emplacement partagé et l'enveloppe de puissance de 350 W du L40S et du PCIe H100 offrent une flexibilité de déploiement sur une large gamme de serveurs standard.
En comparant le L40S au H100, le produit phare de NVIDIA, les différences entre leurs rôles respectifs deviennent évidentes. Le H100 est le leader incontesté des performances d'entraînement IA brutes de cette génération de GPU, mais cette comparaison ne révèle qu'une partie de l'histoire. Il est intéressant de noter que le L40 fait également partie de la gamme NVIDIA, avec un TDP inférieur de 300 W par rapport aux 40 W du L350S, offrant des capacités similaires pour une consommation énergétique réduite.
Le H100 que nous examinons ici est la version PCIe originale de 80 Go avec mémoire HBM2e. NVIDIA a depuis élargi sa gamme avec des variantes comme le H100 NVL, remplaçant le modèle PCIe original de 80 Go. Il offre 94 Go de mémoire et un TDP supérieur de 400 W, tout en intégrant la prise en charge NVLink pour les configurations à double GPU. La famille H100 s'étend également aux configurations SXM à 8 GPU et au nouveau H200, qui partage la même puce GPU mais offre des performances améliorées aux formats PCIe et SXM.
La distinction entre les modèles L40S et H100 met en évidence une divergence stratégique dans la conception des GPU pour centres de données. Le H100 est une carte purement axée sur le calcul, optimisée exclusivement pour l'IA et les charges de travail de calcul haute performance. L'objectif est l'entraînement de l'IA à grande échelle, où le débit de calcul maximal est l'objectif principal. Chaque aspect de sa conception, de l'énorme bande passante mémoire HBM2e aux cœurs Tensor spécialisés, est conçu pour les scénarios d'entraînement des réseaux neuronaux les plus exigeants.
En revanche, le L40S est un GPU universel conçu pour la polyvalence, ciblant l'inférence IA, les charges de travail gourmandes en ressources graphiques et les déploiements NVIDIA vGPU. S'il constitue une solution performante et économique pour l'inférence IA, son véritable atout réside dans sa prise en charge d'un large éventail d'applications gourmandes en ressources graphiques, pour lesquelles le H100 n'est tout simplement pas conçu.
Charges de travail gourmandes en graphiques et applications professionnelles
Le L40S excelle dans de nombreux domaines graphiques exigeants, nécessitant à la fois puissance de calcul et capacités de rendu avancées. En rendu 3D et en animation, les studios s'appuient sur le L40S pour le rendu de scènes complexes, où ses cœurs RT accélèrent les calculs de lancer de rayons, impossibles avec des GPU dédiés uniquement au calcul. Les sociétés de production cinématographique et télévisuelle utilisent ces capacités pour la prévisualisation en temps réel, permettant aux réalisateurs et aux directeurs de la photographie de visualiser des rendus photoréalistes de scènes CGI pendant le tournage, réduisant ainsi considérablement les délais et les coûts de post-production.
Les cabinets d'architecture et d'ingénierie utilisent la L40S pour la visualisation architecturale et la conception de produits en temps réel. Les clients peuvent ainsi explorer des rendus photoréalistes de bâtiments ou examiner des prototypes détaillés avant le début de la construction. Les capacités graphiques professionnelles de la carte la rendent également idéale pour les stations de travail CAO, où les ingénieurs ont besoin à la fois de puissance de calcul pour des simulations complexes et d'accélération graphique pour des performances d'affichage fluides et haute fidélité.
Dans le secteur des médias et du divertissement, le L40S alimente les fermes de rendu qui traitent des images d'animation de qualité finale. Parallèlement, ses capacités vGPU permettent des workflows créatifs basés sur le cloud, permettant aux artistes d'accéder à distance à de puissantes stations de travail graphiques. Les studios de montage vidéo et de postproduction utilisent le L40S pour le traitement d'effets en temps réel, l'étalonnage des couleurs et le compositing, qui nécessitent à la fois une accélération graphique et des ressources de calcul importantes.
Le marché des infrastructures de bureau virtuel (VDI) représente un autre domaine d'application clé. La technologie vGPU du L40S permet à plusieurs utilisateurs de partager des ressources GPU pour des bureaux virtuels accélérés graphiquement. Cela rend les capacités graphiques professionnelles accessibles en entreprise sans avoir à dédier un GPU à chaque utilisateur.
L'évolution vers une formation à l'IA basée sur la physique
Plus important encore, le L40S offre des fonctionnalités totalement absentes du H100. Son principal atout réside dans ses 40 cœurs RT de troisième génération, qui permettent le ray tracing en temps réel et le rendu photoréaliste. Si le H142 ne possède pas de cœurs RT et ne peut donc pas assurer l'accélération graphique, les cœurs RT du L100S en font le choix idéal pour les applications nécessitant à la fois des calculs d'IA et des graphismes avancés.
Source : Nvidia
Cette distinction devient de plus en plus cruciale face à la popularité croissante de la modélisation 3D générée par l'IA, des simulations de jumeaux numériques et des workflows OpenUSD (Universal Scene Description). La prochaine étape de l'intelligence artificielle ne se limite pas à l'entraînement de modèles linguistiques plus vastes ; il s'agit de développer des modèles du monde qui comprennent la physique, les relations spatiales et les interactions avec le monde réel. Cette évolution nécessite une transformation fondamentale de notre approche de la génération de données d'entraînement.
Si l'entraînement des modèles d'IA traditionnels repose largement sur les GPU de calcul phares de NVIDIA, l'entraînement de la prochaine génération de modèles du monde physique requiert une approche différente. Ces systèmes d'IA avancés nécessitent d'énormes quantités de données d'entraînement qui capturent non seulement des informations visuelles, mais aussi les propriétés physiques, le comportement de l'éclairage, les interactions entre les matériaux et les relations spatiales. Les GPU comme le L40S deviennent essentiels pour la génération de données d'entraînement à grande échelle, où leurs cœurs RT permettent la création d'environnements synthétiques physiquement précis qui servent de base à l'entraînement de modèles d'IA plus sophistiqués.
Cette capacité de rendu graphique avancé, alimentée par les cœurs RT dédiés, est précisément ce qui fait du L40S le moteur idéal pour la plate-forme Omniverse de NVIDIA et l'écosystème plus large du développement de l'IA basé sur la physique.
Omnivers
Omnivers est une plateforme de développement d'API, de SDK et de services permettant aux développeurs de créer des applications et des workflows basés sur OpenUSD (Universal Scene Description). Conçue pour créer et connecter des mondes virtuels 3D temps réel, d'une précision physique exceptionnelle, elle intègre la technologie RTX de NVIDIA pour un rendu photoréaliste par lancer de rayons directement dans les workflows de simulation industrielle et robotique. Le L40S, avec ses puissants cœurs RT, offre l'accélération matérielle essentielle pour gérer ces charges de travail exigeantes en rendu RTX, permettant aux développeurs de simuler la lumière, les matériaux et la physique avec un réalisme époustouflant.
Plus qu'un simple outil de visualisation, Omniverse est une plateforme pour le développement de la prochaine génération d'IA physique. En créant ces mondes virtuels réalistes, ou « jumeaux numériques », les développeurs peuvent simuler des installations industrielles complexes, tester des flottes entières de robots et valider des véhicules autonomes dans un environnement virtuel sécurisé avant leur déploiement réel. Ces simulations haute fidélité constituent le fondement de la génération de vastes quantités de données synthétiques physiques ; une ressource essentielle pour l'entraînement des puissants modèles d'IA exécutés sur des GPU dédiés au calcul.
Génération de mouvements de manipulation synthétique pour la robotique
Plan directeur NVIDIA Isaac GR00T La génération de mouvements de manipulation synthétique offre un cadre pour l'entraînement robotique, démontrant comment les capacités RT Core du L40S permettent de créer de grands ensembles de données à partir de démonstrations humaines minimales. Ce flux de travail répond à l'un des principaux défis du développement robotique : la collecte de données d'entraînement de haute qualité et en quantité suffisante pour les tâches de manipulation robotique, un processus long et coûteux.
La formation traditionnelle en robotique repose largement sur l'apprentissage supervisé ou par imitation, où les robots acquièrent de nouvelles compétences en observant et en imitant des démonstrations humaines expertes. Cependant, créer des démonstrations parfaites est complexe, et collecter des données exhaustives et de haute qualité en situation réelle est fastidieux, chronophage et coûteux. Un opérateur humain correctement formé met généralement environ une minute pour enregistrer une seule démonstration de haute qualité, ce qui est difficile à mettre en œuvre à grande échelle en raison de l'effort humain considérable requis et du risque d'erreurs.
Le modèle Isaac GR00T répond à ce défi en exploitant des données synthétiques générées par des simulations physiquement précises pour accélérer le processus de collecte de données. Les organisations peuvent collecter un volume de données exponentiellement plus important en seulement quelques heures de démonstrations humaines.
Isaac GR00T Le plan directeur se compose de trois composants clés qui fonctionnent ensemble pour créer un pipeline complet de génération de données synthétiques :
- GR00T-Teleop Permet à des opérateurs humains qualifiés de contrôler des robots virtuels à l'aide d'appareils de calcul spatial tels qu'Apple Vision Pro. Ce système permet aux opérateurs de démontrer des tâches de manipulation complexes dans des environnements virtuels photoréalistes, en capturant non seulement les trajectoires de mouvement, mais aussi le contexte environnemental et les interactions avec les objets. Apple Vision Pro transmet les données de suivi des mains à Isaac Lab, qui lui renvoie simultanément une vue immersive de l'environnement du robot, permettant un contrôle intuitif et interactif du robot.
- GR00T-Mimic Les démonstrations enregistrées sont transformées en jeux de données synthétiques plus vastes grâce à des techniques de simulation avancées. Ce composant utilise ces démonstrations enregistrées comme données d'entrée pour générer des trajectoires de mouvement synthétiques supplémentaires dans Isaac Lab, prenant en charge la manipulation de robots humanoïdes à un bras ou deux mains. Le processus consiste à annoter les points clés des démonstrations et à utiliser l'interpolation pour garantir la fluidité et l'adéquation contextuelle des trajectoires synthétiques.
- GR00T-Gen Exploite les plateformes NVIDIA Omniverse et Cosmos pour enrichir les jeux de données synthétiques grâce à la mise à l'échelle 3D et à la randomisation de domaine. Ce composant ajoute de la diversité en randomisant l'arrière-plan, l'éclairage et d'autres variables de la scène. Il enrichit les images générées grâce à NVIDIA Cosmos Transfer, obtenant ainsi un photoréalisme qui réduit l'écart entre simulation et réalité.
Ce pipeline illustre parfaitement les rôles spécialisés et complémentaires des GPU des centres de données modernes. Le L40S, avec ses cœurs RT dédiés, joue le rôle de créateur d'univers. Il est indispensable aux premières étapes de la génération de données, où il gère le rendu physique, le lancer de rayons en temps réel et la randomisation des domaines nécessaires à la création d'un environnement virtuel photoréaliste et diversifié.
Ce monde virtuel haute fidélité devient alors le support de la prochaine étape de génération. Les modèles d'IA générative, comme ceux de NVIDIA Cosmoss'exécutent sur des GPU axés sur le calcul, comme le H100, pour produire les données d'entraînement finales. Le H100 exploite l'environnement réaliste créé par le L40S pour générer des millions de scénarios dynamiques et physiques.
Tests de performance d'inférence d'IA
Un autre cas d'utilisation où les cartes comme la L40S sont populaires est l'inférence économique. Pour évaluer les capacités d'inférence IA réelles de la L40S par rapport à celles de la H100, nous avons comparé les performances de LLM en utilisant vLLM exécutant le modèle de paramètres Open Reasoning Nemotron 14B de Nvidia à BF16 avec une longueur de jeton maximale de 32 Ko.
Résultats de référence vLLM
Le H100 affiche une nette supériorité en termes de performances, offrant un débit environ 4.2 fois supérieur à celui du L40S. Cet avantage découle directement des performances doublées du Tensor Core et de la bande passante mémoire plus que doublée du H100 (2 To/s contre 864 Go/s).
Cependant, le rapport performance/prix est tout autre. Le L40S coûte généralement moins d'un tiers du prix d'un H100, ce qui le rend plus rentable pour de nombreuses charges de travail d'inférence. Les organisations qui exploitent des services d'inférence pour lesquels des performances optimales ne sont pas essentielles constatent souvent que le L40S offre un meilleur coût total de possession.
En double-cliquant sur la section avec des performances linéaires, nous voyons que L40S offre un niveau de performances très acceptable, étant capable de traiter 16 requêtes simultanées avec un SLO TPOT (Time Per Output Token) d'environ 52 ms.
Il est important de noter que l'inférence IA, en particulier la phase de décodage de la génération de texte, est une opération fondamentalement gourmande en bande passante mémoire. Lors de l'inférence, le modèle doit accéder de manière répétée aux pondérations stockées dans la mémoire du GPU pour générer chaque nouveau jeton, ce qui fait du débit mémoire un goulot d'étranglement critique. Cette caractéristique explique pourquoi le H100, avec sa bande passante mémoire supérieure et les performances améliorées de Tensor Core, atteint naturellement un débit d'inférence plus élevé.
Cependant, pour les scénarios de déploiement nécessitant à la fois l'inférence de l'IA et l'accélération graphique, tels que le rendu en temps réel avec des effets améliorés par l'IA, les applications interactives avec des fonctionnalités alimentées par l'IA, le L40S devient la seule option viable.
Conclusion
Le NVIDIA L40S et ses successeurs Blackwell RTX Pro 6000 se positionnent comme des GPU stratégiquement positionnés pour répondre aux exigences évolutives des centres de données modernes, où le calcul IA et les capacités graphiques avancées convergent de plus en plus. Si les GPU des classes H100 et B200 restent les leaders incontestés pour les charges de travail d'entraînement et d'inférence IA pure, le L40S se taille une place de choix en tant que GPU universel, comblant le fossé entre les cartes IA axées sur le calcul et les solutions de visualisation professionnelles traditionnelles.
La proposition de valeur unique du L40S se révèle particulièrement dans les scénarios exigeant à la fois des capacités d'inférence IA et d'accélération graphique. Ses 142 cœurs RT de troisième génération permettent des applications impossibles à réaliser sur des GPU dédiés au calcul comme le H100, du ray tracing en temps réel pour les workflows professionnels à la génération de données synthétiques photoréalistes pour l'entraînement de l'IA de nouvelle génération. Cette double capacité le rend indispensable pour les applications émergentes du développement de jumeaux numériques, de l'entraînement de l'IA basé sur la physique et de l'écosystème Omniverse en pleine expansion.
D'un point de vue économique, le L40S offre un excellent rapport qualité-prix aux organisations qui n'ont pas besoin des performances d'IA de pointe du H100. À environ un tiers du prix d'un H100, le L40S offre des performances d'inférence honorables tout en offrant des capacités graphiques qui ajoutent une polyvalence considérable aux déploiements en centres de données. Pour de nombreuses organisations, cette combinaison de rentabilité et de polyvalence fait du L40S un choix plus pratique que l'investissement dans des solutions d'IA et graphiques distinctes.



Amazon