AMD a annoncé l'Instinct MI350P, un accélérateur PCIe destiné aux entreprises souhaitant déployer des fonctions d'inférence IA sur site sans avoir à reconstruire leur centre de données. Cette carte double emplacement, pleine hauteur et pleine longueur, est conçue pour les serveurs standard refroidis par air. C'est également la première fois en près de quatre ans qu'AMD propose une puce Instinct de dernière génération dans un format compatible avec les serveurs classiques.
La gamme PCIe Instinct s'est faite discrète après la sortie de la MI210 début 2022. Depuis, chaque génération (MI300X, MI325X et MI350X OAM) se présente sous la forme d'un module OAM sur une carte mère universelle, nécessitant un châssis dédié avec l'alimentation et la ventilation nécessaires pour huit accélérateurs de classe 1 000 W dans un seul plateau. Cette solution convient aux hyperscalers achetant des GPU en rack. Elle ne convient pas aux entreprises souhaitant une inférence sur site mais ne pouvant ou ne souhaitant pas investir dans un rack IA personnalisé. La MI350P comble ce manque, et pour l'instant, NVIDIA ne propose pas de carte serveur PCIe haut de gamme dans la même catégorie ; AMD domine donc ce segment pour le moment.
Le MI350P n'est pas une version triée du MI350X. AMD a conçu une puce plus petite pour ce modèle. Le MI350X intègre deux puces d'E/S, chacune dotée de quatre puces d'accélération (XCD), pour un total de huit XCD et 256 unités de calcul. Le MI350P, quant à lui, possède une seule puce d'E/S avec quatre XCD et 128 unités de calcul, soit deux fois moins de silicium, fonctionnant à la même fréquence de pointe de 2.2 GHz que son grand frère. La mémoire suit la même configuration : quatre modules HBM3E au lieu de huit, un bus 4 096 bits au lieu d'un bus 8 192 bits et 144 Go à 4 To/s au lieu de 288 Go à 8 To/s.
La puissance de calcul maximale est également divisée par deux. La MI350P atteint 4 600 TFLOPS en MXFP4 contre 9.2 PFLOPS pour la MI350X, et 2 300 TFLOPS en FP8 contre 4.6 PFLOPS. Les performances en BF16, FP16 et dans les autres modes de précision évoluent de la même manière. Il est appréciable de voir AMD publier les performances réelles en plus des performances maximales. Ces dernières sont de 2 299 TFLOPS en MXFP4, 1 529 TFLOPS en FP8 et 713 TFLOPS en BF16. Ces chiffres reflètent les performances réelles de la carte dans une enveloppe thermique de 600 W, où les limitations de consommation électrique et de bande passante mémoire réduisent les performances théoriques.
Nous avons testé la plateforme MI350X via le programme Jumpstart de Supermicro et avons été véritablement impressionnés par ses performances pour les charges de travail d'inférence. Nous sommes impatients de recevoir la MI350P pour la tester et voir comment la version PCIe se comporte dans le châssis serveur plus classique pour lequel elle a été conçue.
| Carte PCIe AMD Instinct MI350P | ||
|---|---|---|
| Spécifications | Débit (FLOPS) | Pic (TFLOPS) |
| Performances | ||
| BF16 | 713 | 1150 |
| FP16 | 672 | 1150 |
| FP8 | 1529 | 2300 |
| MXFP8 | 1327 | 2300 |
| MXFP6 | 1804 | 4600 |
| MXFP4 | 2299 | 4600 |
| Mémoire et partitionnement | ||
| Capacité de la mémoire | 144 Go HBM3E | 144 Go HBM3E |
| Mémoire BW | 3.6 TB / s | 4.0 TB / s |
| Instances GPU | Jusqu'à 4 cartes de 36 Go chacune | Jusqu'à 4 cartes de 36 Go chacune |
| Plateforme complète | ||
| Décodage vidéo et JPEG | ||
| Interconnexion à grande échelle GPU | Non pris en charge | Non pris en charge |
| Produit FF | FHFL double fente refroidi par air | FHFL double fente refroidi par air |
| Puissance totale maximale de la carte (TBP) | 600W (450 W configurable) | 600W (450 W configurable) |
| Hôte PCIe | PCIe Gen 5 x16 à 128 Go/s | PCIe Gen 5 x16 à 128 Go/s |
La consommation ne diminue pas tout à fait de moitié. La MI350P affiche une enveloppe thermique (TBP) de 600 W, soit environ 60 % des 1 000 W de la MI350X. Cette limite de 600 W étant définie par la spécification PCIe CEM, la carte fonctionne à la température maximale autorisée par le slot. Un mode 450 W est disponible pour les boîtiers ne pouvant pas fournir la pleine puissance ou le système de refroidissement adéquat, moyennant une réduction des performances. Avec une consommation de 600 W, la MI350P se positionne également face aux cartes graphiques NVIDIA H200 NVL et RTX Pro 6000 Server, avec lesquelles elle sera comparée sur ce segment de marché.
Contrairement à l'offre NVL4 de NVIDIA avec le H200, AMD n'expose pas les liens Infinity Fabric du GPU sur le MI350P ; toutes les communications collectives passent par le lien PCIe Gen5 x16 (128 Go/s).
La carte MI350P, au format PCIe standard double emplacement, pleine hauteur et pleine longueur, s'intègre parfaitement aux serveurs déjà déployés et exploités par les entreprises, notamment les plateformes haute densité à huit GPU refroidies par air proposées par les principaux constructeurs. Les serveurs Dell PowerEdge XE7740 et HPE ProLiant DL380a Gen12, que nous avons déjà testés, en sont les cibles privilégiées. Chacun est conçu spécifiquement pour accueillir huit accélérateurs double emplacement FHFL dans un châssis refroidi par air, avec une alimentation et un flux d'air optimisés pour des cartes de 600 W. Aucun rack personnalisé, aucun circuit de refroidissement liquide, aucune carte mère OAM ne sont nécessaires.
Une configuration MI350P à huit cartes dans l'un de ces systèmes intègre 1 152 Go de mémoire HBM3E et une bande passante mémoire agrégée de 32 To/s dans un seul boîtier refroidi par air. Pour l'inférence sur de grands modèles à poids ouverts, cela suffit pour héberger un modèle à mille milliards de paramètres sur MXFP4 dans un seul châssis. Cependant, comme mentionné précédemment, le compromis réside dans l'absence de scale-up fabric. Sur l'OAM MI350X, les GPU communiquent via Infinity Fabric à travers la carte mère universelle. Sur le MI350P, chaque communication GPU-à-GPU s'effectue via PCIe Gen5 x16 à 128 Go/s, le même chemin utilisé pour atteindre l'hôte. Pour les charges de travail d'inférence, notamment avec le partitionnement parallèle des tenseurs au sein d'un nœud et le parallélisme de pipeline ou de données entre les nœuds, cette solution est acceptable. Pour l'entraînement fortement couplé où la bande passante de réduction domine le temps d'exécution, la plateforme OAM reste la solution optimale.
La précision mérite d'être abordée, même si aucun des formats pris en charge par le MI350P n'est nouveau. Le MI350X propose les mêmes. Son importance réside dans le fait que les types de données OCP à mise à l'échelle par blocs (MXFP8, MXFP6, MXFP4) sont devenus la norme pour l'entraînement et la diffusion des modèles par les laboratoires de modélisation de pointe. Ces formats permettent aux laboratoires d'entraîner les modèles à une précision moindre sans perte de qualité significative, les gains en termes d'inférence étant immédiats.
Une précision moindre est synonyme de vitesse accrue. MXFP4 est plus de deux fois plus rapide que FP8 et environ quatre fois plus rapide que BF16 en période de pointe. Ce gain de vitesse est perceptible dans les charges de travail réelles. La publication de gpt-oss par OpenAI a mis en évidence cette amélioration du débit, et les modèles de pointe comme Kimi K2.6 sont désormais entraînés nativement en INT4 avec une quantification prise en compte dès le départ, au lieu d'être quantifiés a posteriori. L'autre aspect important est la mémoire. Les poids INT4 et MXFP4 occupent quatre fois moins d'espace que ceux de BF16. Concrètement, cela signifie que des modèles comportant mille milliards de paramètres peuvent tenir dans un seul système à huit GPU. Pour une entreprise souhaitant héberger un modèle à poids ouverts de grande taille sur site, la différence se résume à un rack contre un cluster multi-nœuds avec toute la complexité du réseau et de l'orchestration que cela implique.
La plupart des entreprises qui évaluent l'IA sur site se heurtent à des problèmes de puissance, de refroidissement, de densité de racks ou de budget avant même d'atteindre leurs limites de calcul. Une carte PCIe Instinct, intégrée à leur parc serveur existant, permet de contourner la plupart de ces contraintes. NVIDIA ne propose actuellement aucune carte PCIe serveur haut de gamme pour la concurrencer, ce qui laisse à AMD le champ libre sur ce segment tant que la situation perdure.
Des informations complémentaires sont disponibles sur le site DMLA Instinct .
Intel a annoncé une série de mises à jour pour ses centres de données lors du Computex 2026 à Taipei, couvrant le calcul, la mise en réseau et son accélérateur d'IA…
NetApp et Cisco ont introduit un ensemble élargi de solutions validées FlexPod pour simplifier le déploiement d'une infrastructure d'IA sécurisée et évolutive.
Nutanix a annoncé que sa solution Nutanix Unified Storage (NUS) est désormais certifiée NVIDIA au niveau entreprise, validant ainsi la plateforme pour…
ZutaCore a levé 100 millions de dollars lors d'un tour de table de série C, avec la participation de Mitsubishi Electric, Carrier Ventures, Samsung Electronics et d'autres…
CoolIT Systems a annoncé le développement de ce qu'elle décrit comme la première conception de plaque froide à refroidissement liquide direct (DLC) de 15 kW…
L'infrastructure des services financiers continue d'être définie par la nécessité de traiter des modèles de risque plus vastes dans des limites de puissance et d'espace fixes…