Home EntrepriseAI Les accélérateurs Intel Habana Gaudi2 offrent une alternative NVIDIA pour les grands modèles de langage

Les accélérateurs Intel Habana Gaudi2 offrent une alternative NVIDIA pour les grands modèles de langage

by Jordan Ranous
Intel Habana Gaudi2

L'accélérateur d'apprentissage en profondeur Intel Habana Gaudi2 et les processeurs Intel Xeon Scalable de 4e génération ont démontré des résultats impressionnants dans le benchmark MLPerf Training 3.0, selon un communiqué de presse de la société. Le benchmark, publié par MLCommons, est une norme industrielle largement reconnue pour les performances de l'IA.

L'accélérateur d'apprentissage en profondeur Intel Habana Gaudi2 et les processeurs Intel Xeon Scalable de 4e génération ont démontré des résultats impressionnants dans le benchmark MLPerf Training 3.0, selon un communiqué de presse de la société. Le benchmark, publié par MLCommons, est une norme industrielle largement reconnue pour les performances de l'IA.

Les résultats remettent en question le récit dominant de l'industrie selon lequel l'IA générative et les grands modèles de langage (LLM) ne peuvent fonctionner que sur les GPU NVIDIA. Le portefeuille de solutions d'intelligence artificielle d'Intel offre des alternatives compétitives aux clients qui cherchent à s'éloigner des écosystèmes fermés qui limitent l'efficacité et l'évolutivité.

Intel Habana Gaudi2

Une photo montre la carte mezzanine Habana Gaudi2. Le 10 mai 2022, Habana Labs, l'équipe du centre de données d'Intel axée sur les technologies de processeur d'apprentissage en profondeur de l'IA, a lancé ses processeurs d'apprentissage en profondeur de deuxième génération pour la formation et l'inférence : Habana Gaudi2 et Habana Greco. (Crédit : Intel Corporation)

Qu'est-ce que MLPerf ?

La Formation MLPerf 3.0 benchmark suite mesure la vitesse à laquelle différents systèmes peuvent former des modèles pour répondre à une métrique de qualité spécifiée. Les références couvrent divers domaines, notamment la vision, la langue et le commerce, et utilisent différents ensembles de données et objectifs de qualité.

Détails de l'analyse comparative

Région référence Ensemble de données Objectif de qualité Modèle de mise en œuvre de référence
Vision Classification des images ImageNet 75.90% classement ResNet-50 v1.5
Vision Segmentation d'images (médical) KitS19 0.908 Score DICE moyen U-Net 3D
Vision Détection d'objet (poids léger) Images ouvertes 34.0 % PAM RétineNet
Vision Détection d'objet (poids lourd) COCOS DE PÂQUES 0.377 Boîte min AP et 0.339 Masque min AP Masque R-CNN
Langue Reconnaissance de la parole LibriDiscours Taux d'erreur de 0.058 mot RNN-T
Langue PNL Wikipédia 2020/01/01 Précision de 0.72 masque-LM BERT-grand
Langue LLM C4 2.69 log perplexité GPT3
Commerce Recommandation Criteo 4 To multi-chaud 0.8032 XNUMX XNUMX AUC DLRM-dcnv2

Dans le domaine de la vision, les références incluent la classification des images à l'aide de l'ensemble de données ImageNet avec un objectif de qualité de 75.90 % de précision de classification. Le modèle de référence pour cette tâche est ResNet-50 v1.5. D'autres références de vision incluent la segmentation d'images à l'aide de l'ensemble de données médicales KiTS19 et la détection d'objets à l'aide des ensembles de données Open Images et COCO.

Pour les tâches linguistiques, les références incluent la reconnaissance vocale à l'aide de l'ensemble de données LibriSpeech avec un objectif de qualité d'un taux d'erreur de 0.058 mots. Le modèle de référence pour cette tâche est RNN-T. D'autres références linguistiques incluent le traitement du langage naturel (NLP) à l'aide de l'ensemble de données Wikipedia 2020/01/01 et la formation de grands modèles linguistiques (LLM) à l'aide de l'ensemble de données C4.

Dans le domaine du commerce, la référence est une tâche de recommandation utilisant l'ensemble de données multi-hot Criteo 4 To avec un objectif de qualité de 0.8032 AUC. Le modèle de référence pour cette tâche est DLRM-dcnv2.

Métrique de mesure

La suite de benchmark mesure le temps nécessaire pour former un modèle sur un ensemble de données spécifique pour atteindre un objectif de qualité spécifié. En raison de la variabilité inhérente des temps de formation en apprentissage automatique, les résultats finaux sont obtenus en exécutant le test de référence plusieurs fois, en supprimant les résultats les plus élevés et les plus bas, puis en faisant la moyenne des résultats restants. Malgré cela, il existe encore une certaine variance dans les résultats, les résultats de référence d'imagerie ayant une variance d'environ +/- 2.5 % et d'autres références ayant une variance d'environ +/- 5 %.

Pôles de référence

MLPerf encourage l'innovation logicielle et matérielle en permettant aux participants de réimplémenter les implémentations de référence. Il existe deux divisions dans MLPerf : les divisions fermée et ouverte. La division fermée est conçue pour comparer directement les plates-formes matérielles ou les cadres logiciels et nécessite l'utilisation du même modèle et de l'optimiseur que l'implémentation de référence. D'autre part, la division Open encourage le développement de modèles et d'optimiseurs plus rapides et permet à toute approche d'apprentissage automatique d'atteindre la qualité cible.

Disponibilité du système

MLPerf catégorise les résultats de référence en fonction de la disponibilité du système. Les systèmes classés comme "Disponibles" se composent uniquement de composants qui peuvent être achetés ou loués dans le cloud. Les systèmes « Aperçu » devraient être disponibles lors du prochain cycle de soumission. Enfin, les systèmes classés dans la catégorie «Recherche, développement ou interne (RDI)» contiennent du matériel ou des logiciels expérimentaux, en développement ou à usage interne.

Intel Habana Guadi2 apparaît

L'accélérateur d'apprentissage en profondeur Gaudi2, en particulier, a montré de solides performant sur le grand modèle de langage, GPT-3, ce qui en fait l'une des deux seules solutions de semi-conducteurs à soumettre des résultats de performance pour la formation LLM de GPT-3. Le Gaudi2 offre également des avantages significatifs en termes de coûts de serveur et de système, ce qui en fait une alternative prix/performance convaincante au H100 de NVIDIA.

Les processeurs Xeon de 4e génération dotés de moteurs Intel AI ont démontré que les clients pouvaient créer un système d'IA universel pour le prétraitement des données, la formation de modèles et le déploiement, offrant des performances, une efficacité, une précision et une évolutivité de l'IA.

Le Gaudi2 a fourni un temps d'entraînement impressionnant sur GPT-3, atteignant 311 minutes sur 384 accélérateurs et une mise à l'échelle quasi linéaire de 95 % de 256 à 384 accélérateurs sur le modèle GPT-3. Il a également montré d'excellents résultats de formation dans les modèles de vision par ordinateur et de traitement du langage naturel. Le Gaudi2 résultats ont été soumis « prêts à l'emploi », ce qui signifie que les clients peuvent s'attendre à des résultats de performances comparables lors de la mise en œuvre de Gaudi2 sur site ou dans le cloud.

Les processeurs Xeon de 4e génération, en tant que seule soumission de CPU parmi de nombreuses solutions alternatives, ont prouvé que les processeurs Intel Xeon offrent aux entreprises des capacités prêtes à l'emploi pour déployer l'IA sur des systèmes à usage général, en évitant le coût et la complexité de l'introduction d'une IA dédiée. systèmes.

Cluster Habana Gaudi2 à 8 nœuds

Dans la tâche de traitement du langage naturel (NLP) utilisant l'ensemble de données Wikipedia et le grand modèle BERT, le Gaudi2 a atteint un temps de formation de 2.103 minutes avec 64 accélérateurs.

Dans la tâche de segmentation d'image (médicale) utilisant l'ensemble de données KiTS19 et le modèle 3D U-Net, le Gaudi2 a atteint un temps d'entraînement de 16.460 minutes avec TensorFlow et de 20.516 minutes avec PyTorch, tous deux avec huit accélérateurs.

Dans la tâche de recommandation utilisant l'ensemble de données Criteo 4TB et le modèle DLRM-dcnv2, le Gaudi2 a atteint un temps d'entraînement de 14.794 minutes avec PyTorch et de 14.116 minutes avec TensorFlow, tous deux avec huit accélérateurs.

Dans la division fermée, les Xeons de 4e génération pourraient entraîner les modèles BERT et ResNet-50 en moins de 50 et moins de 90 minutes, respectivement. Avec BERT dans la division ouverte, Xeon a formé le modèle en 30 minutes environ lors de la mise à l'échelle à 16 nœuds.

Ces résultats mettent en évidence l'excellente efficacité de mise à l'échelle possible à l'aide d'adaptateurs réseau Intel Ethernet série 800 économiques et facilement disponibles qui utilisent le logiciel open source Intel Ethernet Fabric Suite basé sur Intel oneAPI.

Impact du marché

Les résultats d'Intel Habana Gaudi2 dans le benchmark MLPerf Training 3.0 soulignent l'engagement de l'entreprise à fournir des solutions d'IA compétitives et efficaces pour un large éventail d'applications, du centre de données à la périphérie intelligente. NVIDIA est clairement le leader du club à cet égard, et chaque fournisseur de serveurs trébuche sur lui-même pour montrer à l'industrie un large éventail de boîtiers lourds en GPU qui sont prêts pour les charges de travail d'IA. Mais ces données réaffirment que l'IA n'est pas une catégorie unique et qu'Intel fait sa part pour donner des choix à l'industrie. Le résultat net est une victoire pour les organisations qui déploient l'IA, car plus de concurrence et de choix sont généralement une très bonne chose.

Habana Gaudí2

S'engager avec StorageReview

Newsletter |  YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Flux RSS