ホーム EnterpriseAI NVIDIA L4 GPU レビュー – 低電力推論ウィザード

NVIDIA L4 GPU レビュー – 低電力推論ウィザード

by ジョーダン・ラナス

このレビューでは、現実世界の AI ベンチマークの洞察を使用して、複数のサーバーにわたる強力だが小型の NVIDIA L4 GPU を検討します。

今日の AI 世界の絶え間ないイノベーションの激流では、さまざまなハードウェア プラットフォームの機能を測定し、理解することが重要です。すべての AI が大規模なトレーニング GPU ファームを必要とするわけではありません。推論 AI には重要なセグメントがあり、多くの場合、特にエッジでは必要な GPU パワーが少なくなります。このレビューでは、4 つの異なる Dell サーバーにわたる複数の NVIDIA L4 GPU、および MLperf を含むさまざまなワークロードを調べて、LXNUMX がどのようにスタックされるかを確認します。

NVIDIA L4

NVIDIA L4 GPU

その中核となる L4 は、FP30.3 パフォーマンスで 32 テラフロップスの驚異的なパフォーマンスを実現し、高精度の計算タスクに最適です。その優れた能力は、深層学習の効率にとって重要な TF32、FP16、および BFLOAT16 Tensor コアを使用した混合精度計算にまで及び、L4 スペック シートでは 60 ~ 121 テラ FLOP のパフォーマンスが示されています。

低精度タスクでは、L4 は FP242.5 および INT8 Tensor コアで 8 テラフロップスを発揮し、ニューラル ネットワーク推論を強化します。 24 GB GDDR6 メモリと 300 GB/秒の帯域幅を備えているため、大規模なデータセットや複雑なモデルを処理できます。ここで最も注目すべきは L4 のエネルギー効率であり、72W TDP によりさまざまなコンピューティング環境に適しています。この高性能、メモリ効率、低消費電力の組み合わせにより、NVIDIA L4 はエッジ コンピューティングの課題にとって魅力的な選択肢となります。

R4 上の NVIDIA L760 GPU

NVIDIA L4の仕様
FP 32 30.3 テラフロップス
TF32 テンソル コア 60 テラフロップス
FP16テンソルコア 121 テラフロップス
BFLOAT16 テンソル コア 121 テラフロップス
FP8テンソルコア 242.5 テラフロップス
INT8テンソルコア 242.5トップ
GPUメモリ 24GB GDDR6
GPU メモリ帯域幅 300GB /秒
最大熱設計電力 (TDP) 72W
フォームファクター 1 スロットのロープロファイル PCIe
インターコネクト PCIe Gen4 x16
スペックチャート L4

もちろん、L4 の価格が約 2500 ドル、A2 の価格がそのおよそ半額、中古の (それでも十分な機能を備えた) T4 が中古で 1000 ドル以下で入手できることを考えると、明らかな疑問は、これら XNUMX つの推論 GPU の違いは何なのかということです。

NVIDIA L4、A2、および T4 の仕様 NVIDIA L4 Nvidia A2 NVIDIA T4
FP 32 30.3 テラフロップス 4.5 テラフロップス 8.1 テラフロップス
TF32 テンソル コア 60 テラフロップス 9 テラフロップス 無し
FP16テンソルコア 121 テラフロップス 18 テラフロップス 無し
BFLOAT16 テンソル コア 121 テラフロップス 18 テラフロップス 無し
FP8テンソルコア 242.5 テラフロップス 無し 無し
INT8テンソルコア 242.5トップ 36トップス 130トップス
GPUメモリ 24GB GDDR6 16GB GDDR6 16GB GDDR6
GPU メモリ帯域幅 300GB /秒 200GB /秒 320GB/秒以上
最大熱設計電力 (TDP) 72W 40-60W 70W
フォームファクター 1 スロットのロープロファイル PCIe
インターコネクト PCIe Gen4 x16 PCIe Gen4 x8 PCIe Gen3 x16
スペックチャート L4 A2 T4

これら 4 つのカードを見るときに理解すべきことの 2 つは、これらが世代ごとに 4 対 8 で置き換えられるものではないということです。これが、T16 が何年も経った今でも一部のユースケースで人気の選択肢であり続けている理由を説明しています。 A4 は、低電力でより互換性の高い (x4 対 x2 メカニカル) オプションとして、TXNUMX の代替品として登場しました。技術的には、LXNUMX は TXNUMX の代替品であり、AXNUMX はその中間に位置し、将来のある時点で更新される場合と更新されない場合があります。

MLPerf 推論 3.1 のパフォーマンス

MLPerf は、公平で関連性の高い AI ハードウェアおよびソフトウェア ベンチマークを提供するために設立された、学界、研究者、業界の AI リーダーのコンソーシアムです。これらのベンチマークは、さまざまなタスクやシナリオにおける機械学習のハードウェア、ソフトウェア、サービスのパフォーマンスを測定するように設計されています。

私たちのテストは、Resnet50 と BERT という XNUMX つの特定の MLPerf ベンチマークに焦点を当てています。

  • Resnet50: これは、主に画像分類に使用される畳み込みニューラル ネットワークです。これは、システムが画像処理に関連する深層学習タスクをどの程度うまく処理できるかを示す良い指標です。
  • BERT (Bidirectional Encoder Representations from Transformers): このベンチマークは自然言語処理タスクに焦点を当てており、人間の言語を理解して処理する際にシステムがどのように機能するかについての洞察を提供します。

これらのテストは両方とも、画像と言語の処理を伴う現実世界のシナリオで AI ハードウェアの機能を評価するために重要です。

これらのベンチマークを使用して NVIDIA L4 を評価することは、特定の AI タスクにおける L4 GPU の機能を理解する上で重要です。また、さまざまな構成 (シングル、デュアル、クアッドセットアップ) がパフォーマンスにどのように影響するかについての洞察も提供します。この情報は、AI インフラストラクチャの最適化を検討している専門家や組織にとって不可欠です。

モデルは、サーバーとオフラインという 2 つの主要なモードで実行されます。

  • オフライン モード: このモードでは、すべてのデータを同時に処理できる場合のシステムのパフォーマンスを測定します。これはバッチ処理に似ており、システムは大規模なデータセットを単一のバッチで処理します。オフライン モードは、遅延は主な懸念事項ではないが、スループットと効率が重要なシナリオでは非常に重要です。
  • サーバー モード: 対照的に、サーバー モードでは、リクエストが一度に 1 つずつ届く、現実のサーバー環境を模倣したシナリオでシステムのパフォーマンスを評価します。このモードは遅延に敏感で、システムが各リクエストにどれだけ早く応答できるかを測定します。これは、Web サーバーや対話型アプリケーションなど、即時の応答が必要なリアルタイム アプリケーションには不可欠です。

1 x NVIDIA L4 – Dell PowerEdge XR7620

Dell XR4 の NVIDIA L7620

最近のレビューの一環として、 デル PowerEdge XR7620には 4 台の NVIDIA LXNUMX が装備されており、MLPerf を含むいくつかのタスクを実行するためにそれを最大限に活用しました。

テスト システム構成には次のコンポーネントが含まれていました。

  • 2 x Xeon Gold 6426Y – 16 コア 2.5GHz
  • 1×NVIDIA L4
  • 8×16GB DDR5
  • 480GB ボス RAID1
  • Ubuntu Server 22.04
  • NVIDIA ドライバー 535
Dell PowerEdge XR7620 1x NVIDIA L4 スコア
Resnet50 – サーバー 12,204.40
Resnet50 – オフライン 13,010.20
BERT K99 – サーバー 898.945
BERT K99 – オフライン 973.435

Resnet50 と BERT K99 のサーバー シナリオとオフライン シナリオのパフォーマンスはほぼ同じであり、L4 が異なるサーバー モデル間で一貫したパフォーマンスを維持していることを示しています。

1、2、および 4 NVIDIA L4 – Dell PowerEdge T560

Dell PowerEdge T560 タワー - Nvidia L4 GOU x4

レビューしたユニット構成には次のコンポーネントが含まれていました。

  • 2 x Intel Xeon Gold 6448Y (それぞれ 32 コア/64 スレッド、225 ワット TDP、2.1 ~ 4.1 GHz)
  • 8 x 1.6TB Solidigm P5520 SSD (PERC 12 RAID カード付き)
  • 1 ~ 4x NVIDIA L4 GPU
  • 8 x 64GB RDIMM
  • Ubuntu Server 22.04
  • NVIDIA ドライバー 535
エッジからデータセンターに戻って活用する 多用途の Dell T560 タワー サーバーでは、L4 が単一 GPU テストでも同様にパフォーマンスを発揮することがわかりました。これは、両方のプラットフォームがボトルネックなしで L4 に強固な基盤を提供できることを示しています。
Dell PowerEdge T560 1x NVIDIA L4 スコア
Resnet50 – サーバー 12,204.40
Resnet50 – オフライン 12,872.10
バート K99 – サーバー 898.945
バート K99 – オフライン 945.146

Dell T4 の 560 つの L50 を使用したテストでは、Resnet99 ベンチマークと BERT K4 ベンチマークの両方で、パフォーマンスがほぼ線形にスケーリングすることが観察されました。このスケーリングは、LXNUMX GPU の効率性と、オーバーヘッドや非効率による重大な損失なしに連携して動作できる能力の証拠です。

Dell PowerEdge T560 2x NVIDIA L4 スコア
Resnet50 – サーバー 24,407.50
Resnet50 – オフライン 25,463.20
BERT K99 – サーバー 1,801.28
BERT K99 – オフライン 1,904.10

4 つの NVIDIA L4 GPU で確認した一貫した線形スケーリングは、XNUMX つの LXNUMX ユニットを備えた構成にも見事に拡張されています。並列処理とリソース管理の複雑さにより、GPU が追加されるたびに線形のパフォーマンス向上を維持することがますます困難になるため、このスケーリングは特に注目に値します。

Dell PowerEdge T560 4x NVIDIA L4 スコア
Resnet50 – サーバー 48,818.30
Resnet50 – オフライン 51,381.70
BERT K99 – サーバー 3,604.96
BERT K99 – オフライン 3,821.46

これらの結果は説明のみを目的としており、MLPerf の競合結果や公式の結果ではありません。完全な公式結果リストについては、こちらをご覧ください。 MLPerf 結果ページにアクセスしてください.

NVIDIA L4 GPU の線形スケーラビリティを検証することに加えて、ラボでのテストにより、これらのユニットをさまざまな運用シナリオに導入することの実際的な意味が明らかになりました。たとえば、L4 GPU を使用したすべての構成におけるサーバー モードとオフライン モード間のパフォーマンスの一貫性は、その信頼性と多用途性を明らかにしています。

この側面は、運用状況が大きく異なる企業や研究機関に特に関係します。さらに、インターコネクトのボトルネックによる最小限の影響と、マルチ GPU セットアップにおける GPU 同期の効率に関する観察は、AI インフラストラクチャの拡張を検討しているユーザーにとって貴重な洞察を提供します。これらの洞察は単なるベンチマークの数値を超えており、現実世界のシナリオでそのようなハードウェアを最適に利用する方法についてのより深い理解を提供し、AI および HPC インフラストラクチャにおけるより適切なアーキテクチャ上の意思決定と投資戦略を導きます。

NVIDIA L4 – アプリケーションのパフォーマンス

新しい NVIDIA L4 のパフォーマンスを、以前の NVIDIA A2 および NVIDIA T4 と比較しました。過去のモデルと比較したこのパフォーマンスのアップグレードを示すために、GPU テスト スイート全体を活用して、Windows Server 2022 と最新の NVIDIA ドライバーを備えた XNUMX つのモデルすべてをラボのサーバー内に展開しました。

これらのカードは、 デル Poweredge R760 次の構成で:

  • 2 x Intel Xeon Gold 6430 (32 コア、2.1GHz)
  • Windows Serverの2022
  • NVIDIA ドライバー 538.15
  • 1x サンプリングの場合はすべてのカードで ECC が無効になります

R4 ライザーの NVIDIA L760

2 つのエンタープライズ GPU からなるこのグループ間のパフォーマンス テストを開始するにあたり、以前の A4 モデルと T2 モデル間の固有のパフォーマンスの違いに注目することが重要です。 A4 がリリースされたとき、消費電力の低減や、古い T8 が必要とした大きな PCIe Gen3 x16 スロットではなく、小さな PCIe Gen4 xXNUMX スロットで動作するなど、いくつかの注目すべき改良点が提供されました。これにより、特に必要な設置面積が小さくなり、より多くのシステムに組み込むことが可能になりました。

ブレンダー OptiX 4.0

Blender OptiX は、オープンソースの 3D モデリング アプリケーションです。このテストは CPU と GPU の両方で実行できますが、ここでは他のほとんどのテストと同様に GPU のみを実行しました。このベンチマークは、Blender Benchmark CLI ユーティリティを使用して実行されました。スコアは XNUMX 分あたりのサンプルであり、高いほど優れています。

ブレンダー4.0
(高いほど良い)
NVIDIA L4 Nvidia A2 Nvidia T4
GPU ブレンダー CLI – モンスター 2,207.765 458.692 850.076
GPU ブレンダー CLI – ジャンクショップ 1,127.829 292.553 517.243
GPU ブレンダー CLI – 教室 1,111.753 262.387 478.786

Blackmagic RAW スピードテスト

ビデオの再生速度をテストする Blackmagic の RAW Speed Test を使用して CPU と GPU をテストします。これは、実際の RAW デコード用の CPU と GPU のパフォーマンスを含むハイブリッド テストです。これらは別の結果として表示されますが、ここでは GPU のみに焦点を当てているため、CPU の結果は省略されています。

Blackmagic RAW スピードテスト
(高いほど良い)
NVIDIA L4 Nvidia A2 NVIDIA T4
8K CUDA 95のFPS 38のFPS 53のFPS

シネベンチ 2024 GPU

Maxon の Cinebench 2024 は、すべての CPU コアとスレッドを利用する CPU および GPU レンダリング ベンチマークです。繰り返しますが、GPU の結果に焦点を当てているため、テストの CPU 部分は実行しませんでした。スコアが高いほど良いです。

Cinebench 2024
(高いほど良い)
NVIDIA L4 Nvidia A2 NVIDIA T4
GPU 15,263 4,006 5,644

GPUPI

GPUPI 3.3.3 は、GPU と CPU によるハードウェア アクセラレーションを使用して、π (パイ) を十億桁までの小数点以下の桁まで計算するように設計された軽量ベンチマーク ユーティリティのバージョンです。これは、中央処理装置とグラフィック処理装置の両方を含む OpenCL と CUDA の計算能力を活用します。 3 つの GPU すべてで CUDA のみを実行しました。ここでの数値は、短縮時間を追加していない計算時間です。低いほど良いです。

GPU PI 計算時間 (秒)
(低いほど良い)
NVIDIA L4 Nvidia A2 NVIDIA T4
GPUPI v3.3 – 1B 3.732s 19.799s 7.504s
GPUPI v3.3 – 32B 244.380s 1,210.801s 486.231s

以前の結果では各カードの 5 回の反復だけを調べましたが、カード内の 4x NVIDIA LXNUMX 導入を調べる機会もありました。 デル PowerEdge T560.

GPU PI 計算時間 (秒)
(低いほど良い)
Dell PowerEdge T560 (2x Xeon Gold 6448Y) と 5x NVIDIA L4
GPUPI v3.3 – 1B 0秒850ミリ秒
GPUPI v3.3 – 32B 50秒361ミリ秒

オクタンベンチ

OctaneBench は、V-Ray と同様に RTX をサポートする別の 3D レンダラである OctaneRender のベンチマーク ユーティリティです。

 オクタン価 (高いほど良い)
シーン カーネル NVIDIA L4 Nvidia A2 NVIDIA T4
インテリア 情報チャンネル 15.59 4.49 6.39
直接照明 50.85 14.32 21.76
パストレース 64.02 18.46 25.76
アイデア 情報チャンネル 9.30 2.77 3.93
直接照明 39.34 11.53 16.79
パストレース 48.24 14.21 20.32
ATV 情報チャンネル 24.38 6.83 9.50
直接照明 54.86 16.05 21.98
パストレース 68.98 20.06 27.50
ボックス 情報チャンネル 12.89 3.88 5.42
直接照明 48.80 14.59 21.36
パストレース 54.56 16.51 23.85
総得点 491.83 143.71 204.56

ギークベンチ 6 GPU

Geekbench 6 システム全体のパフォーマンスを測定するクロスプラットフォームのベンチマークです。 CPU と GPU の両方のベンチマークのテスト オプションがあります。スコアが高いほど良いです。繰り返しますが、ここでは GPU の結果のみを確認しました。

必要なシステムとの比較を次の場所で見つけることができます。 Geekbenchブラウザ.

Geekbench 6.1.0
(高いほど良い)
NVIDIA L4 Nvidia A2 NVIDIA T4
ギークベンチ GPU OpenCL 156,224 35,835 83,046

ラックスマーク

LuxMark は、オープンソース 3D レンダリング エンジン LuxRender の管理者が提供する OpenCL クロスプラットフォーム ベンチマーク ツールです。このツールは、3D モデリング、照明、ビデオ作業における GPU パフォーマンスを調べます。このレビューでは、最新バージョンの v4alpha0 を使用しました。 LuxMark では、スコアに関しては高いほど優れています。

ラックスマーク v4.0alpha0
OpenCL GPU
(高いほど良い)
NVIDIA L4 Nvidia A2 NVIDIA T4
ホールベンチ 14,328 3,759 5,893
フードベンチ 5,330 1,258 2,033

GROMACS CUDA

また、特に CUDA 用にコンパイルされた分子動力学ソフトウェアである GROMACS も調達しています。この特注のコンパイルは、計算シミュレーションの高速化に不可欠な 5 つの NVIDIA L4 GPU の並列処理機能を活用することでした。

このプロセスには、NVIDIA の CUDA コンパイラである nvcc の利用と、バイナリがサーバーのアーキテクチャに適切に調整されていることを確認するための適切な最適化フラグの繰り返しが含まれていました。 GROMACS コンパイルに CUDA サポートが組み込まれたことで、ソフトウェアが GPU ハードウェアと直接インターフェイスできるようになり、複雑なシミュレーションの計算時間を大幅に短縮できます。

テスト: Gromacs でのカスタムタンパク質相互作用

特定のタンパク質相互作用研究用に調整されたパラメーターと構造を含む、コミュニティが提供する多様な Discord の入力ファイルを利用して、分子動力学シミュレーションを開始しました。結果は驚くべきもので、システムは 170.268 日あたり XNUMX ナノ秒のシミュレーション レートを達成しました。

GPU エントルピー ナノ秒/日 コアタイム(秒)
Nvidia A4000 ホワイトボックス AMD Ryzen 5950x 84.415 163,763
RTX NVIDIA 4070 ホワイトボックス AMD Ryzen 7950x3d 131.85 209,692.3
5x NVIDIA L4 Dell T560 (インテル Xeon Gold 2Y 6448 基搭載) 170.268 608,912.7

AIを超えたもの

AI の誇大宣伝が大流行しているため、NVIDIA L4 上のモデルのパフォーマンスに囚われがちですが、ビデオ アプリケーションの可能性の領域を開く、他にもいくつかのトリックが用意されています。 1,040p1 で最大 720 の AV30 ビデオ ストリームを同時にホストできます。これにより、コンテンツをエッジ ユーザーにライブ ストリーミングする方法が変わり、創造的なストーリーテリングが強化され、没入型 AR/VR エクスペリエンスの興味深い用途が提示されます。

NVIDIA L4 は、リアルタイム レンダリングとレイ トレーシングの機能で明らかなように、グラフィックス パフォーマンスの最適化にも優れています。エッジ オフィスでは、L4 は、高品質のリアルタイム グラフィック レンダリングが不可欠な場合に、最も必要とするエンド ユーザーに、VDI での堅牢かつ強力なアクセラレーション グラフィック計算を提供できます。

閉じた思考

NVIDIA L4 GPU は、エッジ AI とハイパフォーマンス コンピューティングのための強固なプラットフォームを提供し、いくつかのアプリケーションにわたって比類のない効率と多用途性を提供します。集中的な AI、アクセラレーション、またはビデオ パイプラインを処理し、グラフィックス パフォーマンスを最適化する機能により、エッジ推論または仮想デスクトップ アクセラレーションに理想的な選択肢となります。 L4 は、高い計算能力、高度なメモリ機能、エネルギー効率の組み合わせにより、特に AI やグラフィックスを多用する業界において、エッジでのワークロードの高速化を推進する重要な役割を担っています。

NVIDIA L4 ツイスト スタック

AI が昨今の IT ハリケーンの注目の的であることに疑いの余地はなく、モンスター H100/H200 GPU に対する需要は依然として天井知らずです。しかし、データが作成および分析されるエッジに、より堅牢な IT キットのセットを導入するという大きな推進もあります。このような場合、より適切な GPU が必要になります。ここでは NVIDIA L4 が優れており、T560 でテストしたように、単一ユニットとして、または一緒にスケールされたエッジ推論のデフォルト オプションとなるはずです。

NVIDIA L4 製品ページ

StorageReview と連携する

ニュースレター | YouTube |ポッドキャスト iTunes/Spotifyは | Instagram | Twitter | TikTok | RSSフィード