ホーム EnterpriseAI ウォレット ベイ ドアを開く ハル: マルチ GPU 利用とモデル並列処理の力

ウォレット ベイ ドアを開く ハル: マルチ GPU 利用とモデル並列処理の力

by ジョーダン・ラナス
HP Z8 Fury G5 インテリア

人工知能の世界は猛烈なスピードで進化しており、瞬く間に次の進歩を見逃してしまうでしょう。モデルのサイズがますます大きくなるにつれ、研究者や開発者は AI モデルの効率とパフォーマンスを向上させる方法を常に模索しています。これを実現する最も簡単な方法の 1 つは、AI のトレーニングと推論に複数のグラフィックス プロセッシング ユニット (GPU) またはテンソル プロセッシング ユニット (TPU、これについては次回で詳しく説明します) を使用することです。

人工知能の世界は猛烈なスピードで進化しており、瞬く間に次の進歩を見逃してしまうでしょう。モデルのサイズがますます大きくなるにつれ、研究者や開発者は AI モデルの効率とパフォーマンスを向上させる方法を常に模索しています。これを実現する最も簡単な方法の 1 つは、AI のトレーニングと推論に複数のグラフィックス プロセッシング ユニット (GPU) またはテンソル プロセッシング ユニット (TPU、これについては次回で詳しく説明します) を使用することです。

HP z8 G5 Fury での DNN トレーニング

私たちの上に構築 AI In the lab の最終回では、HP Z8 G5 Fury ワークステーションでこれらの強力なカードを XNUMX 枚の GPU の使用から XNUMX 枚、最終的には XNUMX 枚の使用に移行する利点について、特に PyTorch モデルの並列処理に焦点を当てながら、深く掘り下げて実際に実践的に調べました。 。

モデルの並列処理の力

詳細に入る前に、並列処理の概念を理解することが重要です。 AI の文脈では、並列処理とは、複数の計算を同時に実行するプロセスを指します。これは、大量のデータを処理する必要がある AI のトレーニングと推論において特に有益です。私たちがラボで使用しているオープンソースの機械学習ライブラリである PyTorch は、複数の GPU にわたる AI モデルの分散を可能にするモデルの並列処理を提供します。これにより、トレーニング時間が短縮され、推論がより効率的になり、より大規模で複雑なモデルを実行できるようになります。

SLI が無効になっていることを確認することが重要です

スケールアップの利点

シングル GPU

単一の GPU から始まるこのセットアップは、AI のトレーニングと推論のための強固な基盤を提供します。 POC 段階では、開発用のワークステーションで最新の (または数世代前の) GPU を 1 つ実行するだけで十分です。適度な量のデータを処理でき、小規模な AI モデルでも満足のいく結果を提供できます。ただし、モデルの複雑さとサイズが増加すると、単一の GPU ではすぐに対応できなくなり、トレーニング時間が長くなり、推論が遅くなる可能性があります。

単一 GPU の使用率

2 つの GPU

GPU のペアに切り替えると、AI モデルのパフォーマンスが著しく向上します。考えてみてください。処理能力が 2 倍になると、トレーニング時間が大幅に短縮され、より迅速な反復と迅速な結果への道が開かれます。

推論段階でもメリットがあり、効率が向上し、より大きなデータ バッチを同時に処理できるようになりました。このような環境では、PyTorch のモデル並列処理が役に立ちます。 2 つのユニット間でワークロードを効果的に分散し、その使用率を最大化します。これは、生産性の高い AI 運用を実現するために各ハードウェアがその重みを確実に担う賢い方法です。

Nvidia RTX A8 を搭載した HP Z5 Fury G6000

3 倍楽しい、NVIDIA A6000

4 つの GPU

GPU を 4 つまでスケールアップすると、マルチ GPU 利用のメリットがさらにレベルアップします。 4 倍の処理能力により、AI モデルは前例のない速度でトレーニングおよび推論できます。この設定は、大量の計算リソースを必要とする大規模で複雑なモデルに特に有益です。 PyTorch のモデル並列処理により、モデルを 4 つのユニットすべてに分散できるため、最適な使用率とパフォーマンスが保証されます。

ワークステーションでは、手動のファンとクロックの値を適用すると、トレーニングのパフォーマンスも向上します。

ラボでの実装

AI のトレーニングと推論のために、ソロ ユニットからデュオ、そして最終的には GPU のカルテットに進むことで、大きな利点が得られる可能性があります。 PyTorch のモデル並列処理のおかげで、これらの利点を最適に活用して、より迅速で効率的な AI モデルを生み出すことができます。

AI/ML/DL トレーニングでは、試行錯誤と忍耐が鍵となります。

より複雑で有能な AI への渇望が高まるにつれ、マルチ GPU の採用の重要性が間違いなく増大するでしょう。次の記事では、処理能力を追加し、システム間で分散することによる複雑さの改善について紹介します。

注: この記事は、2023 年 XNUMX 月時点の AI と PyTorch の現状に基づいています。最新の情報については、必ず 最新の AI 記事.

StorageReview と連携する

ニュースレター | YouTube |ポッドキャスト iTunes/Spotifyは | Instagram | Twitter | TikTok | RSSフィード