Entreprise

AMD Instinct MI350P : L’inférence IA PCIe d’entreprise fait son retour sur les serveurs standard

AMD a annoncé l'Instinct MI350P, un accélérateur PCIe destiné aux entreprises souhaitant déployer des fonctions d'inférence IA sur site sans avoir à reconstruire leur centre de données. Cette carte double emplacement, pleine hauteur et pleine longueur, est conçue pour les serveurs standard refroidis par air. C'est également la première fois en près de quatre ans qu'AMD propose une puce Instinct de dernière génération dans un format compatible avec les serveurs classiques.

La gamme PCIe Instinct s'est faite discrète après la sortie de la MI210 début 2022. Depuis, chaque génération (MI300X, MI325X et MI350X OAM) se présente sous la forme d'un module OAM sur une carte mère universelle, nécessitant un châssis dédié avec l'alimentation et la ventilation nécessaires pour huit accélérateurs de classe 1 000 W dans un seul plateau. Cette solution convient aux hyperscalers achetant des GPU en rack. Elle ne convient pas aux entreprises souhaitant une inférence sur site mais ne pouvant ou ne souhaitant pas investir dans un rack IA personnalisé. La MI350P comble ce manque, et pour l'instant, NVIDIA ne propose pas de carte serveur PCIe haut de gamme dans la même catégorie ; AMD domine donc ce segment pour le moment.

Matériel : MI350P vs. MI350X OAM

Le MI350P n'est pas une version triée du MI350X. AMD a conçu une puce plus petite pour ce modèle. Le MI350X intègre deux puces d'E/S, chacune dotée de quatre puces d'accélération (XCD), pour un total de huit XCD et 256 unités de calcul. Le MI350P, quant à lui, possède une seule puce d'E/S avec quatre XCD et 128 unités de calcul, soit deux fois moins de silicium, fonctionnant à la même fréquence de pointe de 2.2 GHz que son grand frère. La mémoire suit la même configuration : quatre modules HBM3E au lieu de huit, un bus 4 096 bits au lieu d'un bus 8 192 bits et 144 Go à 4 To/s au lieu de 288 Go à 8 To/s.

La puissance de calcul maximale est également divisée par deux. La MI350P atteint 4 600 TFLOPS en MXFP4 contre 9.2 PFLOPS pour la MI350X, et 2 300 TFLOPS en FP8 contre 4.6 PFLOPS. Les performances en BF16, FP16 et dans les autres modes de précision évoluent de la même manière. Il est appréciable de voir AMD publier les performances réelles en plus des performances maximales. Ces dernières sont de 2 299 TFLOPS en MXFP4, 1 529 TFLOPS en FP8 et 713 TFLOPS en BF16. Ces chiffres reflètent les performances réelles de la carte dans une enveloppe thermique de 600 W, où les limitations de consommation électrique et de bande passante mémoire réduisent les performances théoriques.

Nous avons testé la plateforme MI350X via le programme Jumpstart de Supermicro et avons été véritablement impressionnés par ses performances pour les charges de travail d'inférence. Nous sommes impatients de recevoir la MI350P pour la tester et voir comment la version PCIe se comporte dans le châssis serveur plus classique pour lequel elle a été conçue.

Carte PCIe AMD Instinct MI350P
Spécifications Débit (FLOPS) Pic (TFLOPS)
Performances
BF16 713 1150
FP16 672 1150
FP8 1529 2300
MXFP8 1327 2300
MXFP6 1804 4600
MXFP4 2299 4600
Mémoire et partitionnement
Capacité de la mémoire 144 Go HBM3E 144 Go HBM3E
Mémoire BW 3.6 TB / s 4.0 TB / s
Instances GPU Jusqu'à 4 cartes de 36 Go chacune Jusqu'à 4 cartes de 36 Go chacune
Plateforme complète
Décodage vidéo et JPEG
Interconnexion à grande échelle GPU Non pris en charge Non pris en charge
Produit FF FHFL double fente refroidi par air FHFL double fente refroidi par air
Puissance totale maximale de la carte (TBP) 600W
(450 W configurable)
600W
(450 W configurable)
Hôte PCIe PCIe Gen 5 x16 à 128 Go/s PCIe Gen 5 x16 à 128 Go/s

La consommation ne diminue pas tout à fait de moitié. La MI350P affiche une enveloppe thermique (TBP) de 600 W, soit environ 60 % des 1 000 W de la MI350X. Cette limite de 600 W étant définie par la spécification PCIe CEM, la carte fonctionne à la température maximale autorisée par le slot. Un mode 450 W est disponible pour les boîtiers ne pouvant pas fournir la pleine puissance ou le système de refroidissement adéquat, moyennant une réduction des performances. Avec une consommation de 600 W, la MI350P se positionne également face aux cartes graphiques NVIDIA H200 NVL et RTX Pro 6000 Server, avec lesquelles elle sera comparée sur ce segment de marché.

Contrairement à l'offre NVL4 de NVIDIA avec le H200, AMD n'expose pas les liens Infinity Fabric du GPU sur le MI350P ; toutes les communications collectives passent par le lien PCIe Gen5 x16 (128 Go/s).

L'histoire des systèmes à huit GPU refroidis par air

La carte MI350P, au format PCIe standard double emplacement, pleine hauteur et pleine longueur, s'intègre parfaitement aux serveurs déjà déployés et exploités par les entreprises, notamment les plateformes haute densité à huit GPU refroidies par air proposées par les principaux constructeurs. Les serveurs Dell PowerEdge XE7740 et HPE ProLiant DL380a Gen12, que nous avons déjà testés, en sont les cibles privilégiées. Chacun est conçu spécifiquement pour accueillir huit accélérateurs double emplacement FHFL dans un châssis refroidi par air, avec une alimentation et un flux d'air optimisés pour des cartes de 600 W. Aucun rack personnalisé, aucun circuit de refroidissement liquide, aucune carte mère OAM ne sont nécessaires.

Une configuration MI350P à huit cartes dans l'un de ces systèmes intègre 1 152 Go de mémoire HBM3E et une bande passante mémoire agrégée de 32 To/s dans un seul boîtier refroidi par air. Pour l'inférence sur de grands modèles à poids ouverts, cela suffit pour héberger un modèle à mille milliards de paramètres sur MXFP4 dans un seul châssis. Cependant, comme mentionné précédemment, le compromis réside dans l'absence de scale-up fabric. Sur l'OAM MI350X, les GPU communiquent via Infinity Fabric à travers la carte mère universelle. Sur le MI350P, chaque communication GPU-à-GPU s'effectue via PCIe Gen5 x16 à 128 Go/s, le même chemin utilisé pour atteindre l'hôte. Pour les charges de travail d'inférence, notamment avec le partitionnement parallèle des tenseurs au sein d'un nœud et le parallélisme de pipeline ou de données entre les nœuds, cette solution est acceptable. Pour l'entraînement fortement couplé où la bande passante de réduction domine le temps d'exécution, la plateforme OAM reste la solution optimale.

Formats de précision

La précision mérite d'être abordée, même si aucun des formats pris en charge par le MI350P n'est nouveau. Le MI350X propose les mêmes. Son importance réside dans le fait que les types de données OCP à mise à l'échelle par blocs (MXFP8, MXFP6, MXFP4) sont devenus la norme pour l'entraînement et la diffusion des modèles par les laboratoires de modélisation de pointe. Ces formats permettent aux laboratoires d'entraîner les modèles à une précision moindre sans perte de qualité significative, les gains en termes d'inférence étant immédiats.

Une précision moindre est synonyme de vitesse accrue. MXFP4 est plus de deux fois plus rapide que FP8 et environ quatre fois plus rapide que BF16 en période de pointe. Ce gain de vitesse est perceptible dans les charges de travail réelles. La publication de gpt-oss par OpenAI a mis en évidence cette amélioration du débit, et les modèles de pointe comme Kimi K2.6 sont désormais entraînés nativement en INT4 avec une quantification prise en compte dès le départ, au lieu d'être quantifiés a posteriori. L'autre aspect important est la mémoire. Les poids INT4 et MXFP4 occupent quatre fois moins d'espace que ceux de BF16. Concrètement, cela signifie que des modèles comportant mille milliards de paramètres peuvent tenir dans un seul système à huit GPU. Pour une entreprise souhaitant héberger un modèle à poids ouverts de grande taille sur site, la différence se résume à un rack contre un cluster multi-nœuds avec toute la complexité du réseau et de l'orchestration que cela implique.

Conclusion

La plupart des entreprises qui évaluent l'IA sur site se heurtent à des problèmes de puissance, de refroidissement, de densité de racks ou de budget avant même d'atteindre leurs limites de calcul. Une carte PCIe Instinct, intégrée à leur parc serveur existant, permet de contourner la plupart de ces contraintes. NVIDIA ne propose actuellement aucune carte PCIe serveur haut de gamme pour la concurrencer, ce qui laisse à AMD le champ libre sur ce segment tant que la situation perdure.

Des informations complémentaires sont disponibles sur le site DMLA Instinct .

Harold Fritt

Je suis dans l'industrie de la technologie depuis qu'IBM a créé Selectric. Ma formation, cependant, est l'écriture. J'ai donc décidé de sortir de l'avant-vente et de revenir à mes racines, en écrivant un peu mais en restant impliqué dans la technologie.

Derniers Articles

Intel lance le Xeon 6+ sur le serveur 18A avec 288 cœurs E, Ethernet 200 GbE E835 et GPU Crescent Island. Détails techniques

Intel a annoncé une série de mises à jour pour ses centres de données lors du Computex 2026 à Taipei, couvrant le calcul, la mise en réseau et son accélérateur d'IA…

Il y a 2 jours

NetApp et Cisco étendent FlexPod avec des architectures d'IA validées et la réponse de stockage SOAR de Splunk

NetApp et Cisco ont introduit un ensemble élargi de solutions validées FlexPod pour simplifier le déploiement d'une infrastructure d'IA sécurisée et évolutive.

Il y a 2 jours

Nutanix Unified Storage obtient la certification NVIDIA de niveau entreprise pour les charges de travail d'IA en production

Nutanix a annoncé que sa solution Nutanix Unified Storage (NUS) est désormais certifiée NVIDIA au niveau entreprise, validant ainsi la plateforme pour…

Il y a 2 jours

ZutaCore lève 100 millions de dollars en série C pour développer une solution de refroidissement diphasique sans eau pour les centres de données d'IA.

ZutaCore a levé 100 millions de dollars lors d'un tour de table de série C, avec la participation de Mitsubishi Electric, Carrier Ventures, Samsung Electronics et d'autres…

Il y a 3 jours

CoolIT Systems présente une plaque froide de 15 kW, étendant la durée de vie du DLC monophasé au-delà de 2030.

CoolIT Systems a annoncé le développement de ce qu'elle décrit comme la première conception de plaque froide à refroidissement liquide direct (DLC) de 15 kW…

Il y a 3 jours

Record HPE XD230 STAC-A2 : Intel Xeon 6980P et Micron MRDIMM en tête des indicateurs de risque financier

L'infrastructure des services financiers continue d'être définie par la nécessité de traiter des modèles de risque plus vastes dans des limites de puissance et d'espace fixes…

Il y a 4 jours