ホーム EnterpriseAI AI 推論パフォーマンスに対する DRAM チャネルの影響の評価

AI 推論パフォーマンスに対する DRAM チャネルの影響の評価

by ジョーダン・ラナス

AI システムにおける DRAM の利点を検証するために、56 つの Kingston KSM46R4BD64PMI-5HAI DDRXNUMX メモリ モジュールを使用して一連のテストを実施しました。

システム DRAM は、AI、特に CPU 推論において重要な役割を果たします。 AI アプリケーションがより複雑になるにつれて、より高速で効率的なメモリ ソリューションに対する需要がますます重要になっています。私たちは、CPU 推論と複数のメモリ チャネルを利用する重要な役割に焦点を当てて、AI におけるシステム DRAM の重要性を検討したいと考えました。

Kingston KSM56R46BD4PMI-64HAI DDR5

Kingston KSM56R46BD4PMI-64HAI DDR5

AI におけるシステム DRAM の重要性

システム DRAM は、AI システムのデータの中心ハブです。 CPU による迅速なアクセスのためにデータが一時的に保存されるため、迅速なデータ処理が可能になります。

これは、大規模なデータセットを迅速かつ効率的に処理することが利点であるだけでなく必須である AI アプリケーションでは特に重要です。ここでは、AI 機能の強化におけるシステム DRAM の多面的な役割を詳しく見ていきます。

  • 速度と効率: AI アルゴリズム、特に推論では、膨大な量のデータを処理するために高速メモリが必要です。システム DRAM はこの速度を提供し、レイテンシを短縮し、システム全体のパフォーマンスを向上させます。
  • 容量: 最新の AI アプリケーションは大容量のメモリを必要とします。大容量 DRAM により、より大きなデータセットをメモリ内で処理できるようになり、ストレージ デバイスからデータをフェッチするプロセスが遅くなることがなくなります。
  • 信頼性: AI では、データの整合性が最も重要です。システム DRAM はエラー訂正機能を備えており、データの破損を最小限に抑えます。これは、精度が重要なアプリケーションでは不可欠です。
  • スケーラビリティ: AI モデルがますます複雑になるにつれて、メモリ リソースを拡張する機能が非常に重要になります。システム DRAM は、進化する AI アプリケーションの増大する要求と、増大するデータ要件に対応するために必要な拡張性を提供します。
  • 帯域幅: システム DRAM の高い帯域幅により、より高速なデータ転送速度が可能になり、データへの迅速なアクセスが可能になります。これは、複雑なニューラル ネットワークのトレーニングや大規模なデータ処理タスクの管理に特に役立ちます。

CPU 推論と DRAM

人工知能では、CPU 推論 (トレーニングされたモデルを使用して予測や意思決定を行うプロセス) と DRAM の役割は、AI アプリケーションの効率と速度に大きな影響を与える重要なコンポーネントです。このフェーズでは、大規模なデータセットに迅速にアクセスして処理する必要があるため、メモリを大量に消費します。関係するデータの性質とサイズが複雑なため、システム メモリに特に負荷がかかります。

DRAM は、いくつかの重要な機能強化を通じて AI 操作の CPU 推論を最適化する上で極めて重要です。まず、高いデータ スループットを達成するために必要な帯域幅を提供します。これは、CPU 推論における迅速なデータ処理と意思決定に不可欠です。このスループットの向上は、複雑なタスクのパフォーマンスの向上に直接つながります。

さらに、システム DRAM はデータを CPU の近くに保存することにより、データへのアクセス時間を大幅に短縮し、全体的な推論遅延を最小限に抑えます。この近接性は、迅速で応答性の高いシステムを維持するために非常に重要です。最後に、データが高速に処理され、アクセス時間が短縮されるため、CPU 推論タスクに必要な全体的な電力が大幅に削減されます。これにより、よりエネルギー効率の高い運用が実現され、AI アプリケーションにとってより持続可能でコスト効率の高い環境が確保されます。

複数のメモリチャネルの役割

システム メモリ アーキテクチャは、AI アプリケーションのパフォーマンスを定義する上で不可欠な要素です。複数のメモリ チャネルを使用することは、高速道路を拡張するようなものです。これにより、データ トラフィックの同時フローが促進され、システム全体のパフォーマンスが大幅に向上します。複数のチャネルを採用して AI の運用を最適化する方法は次のとおりです。

  • 帯域幅の増加: 複数のチャネルによりメモリ帯域幅が増加します。これは、より多くのデータを同時に処理および分析できるため、AI アプリケーションにとって非常に重要であり、推論時間の短縮につながります。
  • 並列処理: 複数のチャネルを使用すると、データを並列処理できるため、大規模なデータセットを含む AI 計算が大幅に高速化されます。
  • ボトルネックの軽減: 複数のメモリ チャネルは、システムのボトルネックの軽減に役立ちます。メモリ負荷を分散することで、各チャネルがより効率的に動作できるようになり、システム全体のパフォーマンスが向上します。

テストデータ

AI システム、特に CPU 推論における DRAM の利点を検証するために、さまざまなチャネル構成にわたって 56 つの Kingston KSM46R4BD64PMI-5HAI DDRXNUMX メモリ モジュールを使用して一連のテストを実施しました。

KSM48R40BD4TMM-64HMR 64GB 2Rx4 8G x 80 ビット PC5-4800 CL40 登録済み EC8 288 ピン DIMM KSM56R46BD4PMI-64HAI 64GB 2Rx4 8G x 80 ビット PC5-5600 CL46 登録済み EC8 288 ピン DIMM
転送速度 4800 MT / s 5600 MT / s
CL(IDD) 40サイクル 46サイクル
行サイクル時間 (tRCmin) 48ns(分) 48ns(分)
リフレッシュからアクティブまでのリフレッシュ/リフレッシュ コマンド時間 (tRFCmin) 295ns(分) 295ns(分)
行のアクティブ時間 32ns(分) 32ns(分)
行プリチャージ時間 16ns(分) 16ns(分)
UL定格 94V-0 94V-0
使用温度 0 C〜 + 95 C 0 C〜 + 95 C
保管温度 -55 C〜+ 100 C -55 C〜+ 100 C

ベースラインを確立するために、集中的な CPU ベンチマークと Geekbench テストを開始し、CPU の個別の機能を測定しました。メモリやストレージを含むシステム全体に大きな負荷をかけるため、厳しい要求を満たす y-cruncher を選択しました。このアプローチにより、極端な条件下でシステム全体の凝集性と耐久性を評価することができ、全体的なパフォーマンスと安定性を明確に把握できます。

最終的に、これらの結果は、システム DRAM とメモリ チャネルの数が AI アプリケーションの計算速度、効率、全体的なシステム パフォーマンスにどのように直接影響するかについての具体的なデータを提供します。

Geekbench 6

最初のアップです Geekbench 6、システム全体のパフォーマンスを測定するクロスプラットフォームのベンチマーク。必要なシステムとの比較を次の場所で見つけることができます。 Geekbenchブラウザ。スコアが高いほど良いです。

Geekbench 6 キングストン DDR5
2チャンネル
キングストン DDR5
4チャンネル
キングストン DDR5
8チャンネル
CPU ベンチマーク:
シングルコア
2,083 2,233 2,317
CPU ベンチマーク:
マルチコア
14,404 18,561 19,752

Kingston DDR6 の Geekbench 5 の結果では、2、4、および 8 チャネルのセットアップを比較すると、さまざまな変動が示されます。シングルコア テストでは、スコアは 2,083 チャネルの 2,317 から 14,404 チャネルの 19,752 まで、緩やかではありますが一貫して増加しており、チャネル数が増加するにつれて個々のコア操作の効率とスループットが向上していることを示しています。ただし、最も劇的なパフォーマンスの向上はマルチコア テストで観察され、スコアは XNUMX チャネルの XNUMX から XNUMX チャネルの大幅な XNUMX に跳ね上がりました。

yクランチャー

マルチスレッドのスケーラブルなプログラムである y-cruncher は、円周率やその他の数学定数を数兆桁まで計算できます。 2009 年の発売以来、y-cruncher はオーバークロッカーやハードウェア愛好家の間で人気のベンチマークおよびストレス テスト アプリケーションとなっています。このテストでは速いほど優れています。

yクランチャー
(総計算時間)
キングストン DDR5
2チャンネル
キングストン DDR5
4チャンネル
キングストン DDR5
8チャンネル
1億桁 18.117秒数 10.856秒数 7.552秒数
2.5億桁 51.412秒数 31.861秒 20.981秒
5億桁 110.728秒数 64.609秒 46.304秒
10億桁 240.666秒数 138.402秒 103.216秒
25億桁 693.835秒数 396.997秒  無し

2、4、および 8 チャネルにわたる y-cruncher ベンチマークは、チャネル数が増加するにつれて計算速度が明確かつ一貫して向上していることを示しています。 1 億桁の円周率を計算する場合、合計計算時間は 18.117 チャネルの場合の 7.552 秒から、XNUMX チャネルの場合のわずか XNUMX 秒に大幅に短縮されます。

この計算時間の短縮傾向はテスト済みのすべてのスケールで継続しており、25 チャネルから 693.835 チャネルに移行すると、396.997 億桁の計算時間が 2 秒から 4 秒に減少しました。

3DMark – CPU プロファイル

3DMark の CPU プロファイル テストでは、さまざまなスレッド数にわたるプロセッサのパフォーマンスを特に測定し、DDR5 RAM チャネルのさまざまな構成が CPU のワークロード処理と効率にどのような影響を与えるかを詳細に調べます。このテストは、さまざまな DDR5 RAM チャネル設定を使用する場合の、メモリを大量に使用する操作やマルチスレッド アプリケーションにおけるパフォーマンスの微妙な違いを理解するのに役立ちます。

3DMark – CPU プロファイル – スコア
スレッド数 キングストン DDR5
2チャンネル
キングストン DDR5
4チャンネル
キングストン DDR5
8チャンネル
最大スレッド数 15,822 15,547 15,457
16スレッド 10,632 9,515 10,367
8スレッド 4,957 6,019 5,053
4スレッド 3,165 3,366 3,323
2スレッド 1,726 1,765 1,781
1スレッド 907 911 884

Kingston DDR3 RAM の 5DMark CPU プロファイル スコアはやや複雑な状況を示しており、最適なチャネル数はスレッド数と特定のワークロードに応じて異なる可能性があることを示しています。

最大スレッド数では、スコアは 15,822 チャネル (4) で最も高く、チャネルが増えるとわずかに減少します。これは、追加のチャネルが高度な並列タスクにメリットを提供しないことを示唆しています。ただし、6,019 スレッドでは、4 チャネル構成のスコアが最高 (2) であり、追加のチャネルによって中間レベルの並列処理の処理が改善されるスイート スポットを示しています。スコアは、スレッド数が低い場合 (1、XNUMX、XNUMX スレッド)、すべてのチャネル構成で同様です。

これらの結果は、より多くのチャネルが特定のマルチスレッド操作に恩恵をもたらす可能性がある一方で、その影響はタスクの性質やシステムのアーキテクチャによって異なることを示唆しています。つまり、あらゆるユースケースにおいて、多ければ多いほど良いというわけではありません。

AI 推論に対する DRAM チャネルの影響

すべてのテストは、UL Labs Procyon Benchmark を通じて Intel OpenVINO API を利用して、Intel Xeon w9-3475X CPU で実行されました。

UL Procyon AI Inference Benchmark は、一流ベンダーの一連の AI 推論エンジンを搭載し、幅広いハードウェアのセットアップと要件に対応します。ベンチマーク スコアは、オンデバイス推論パフォーマンスの便利で標準化された概要を提供します。これにより、社内ソリューションを必要とせずに、現実の状況でさまざまなハードウェア設定を比較対照することができます。

FP32 では結果は誤差の範囲内ですが、INT に移行すると、全体的なスコアではなく粒度の高いスコアを見ると、事態は興味深いものになります。

全体的なスコアでは数値が大きいほど優れており、時間では数値が小さいほど優れています。

まずはFP32プレシジョン

FP 32
精度 8チャンネル 2チャンネル
総合評点 629 630
MobileNet V3 の平均推論時間 0.81 0.77
ResNet 50 の平均推論時間 1.96 1.82
Inception V4 の平均推論時間 6.93 7.31
DeepLab V3 の平均推論時間 6.27 6.17
YOLO V3 の平均推論時間 12.99 13.99
REAL-ESRGAN 平均推論時間 280.59 282.45

次はFP16 Precisionです

FP 16
精度 8チャンネル 2チャンネル
総合評点 645 603
MobileNet V3 の平均推論時間 0.81 0.76
ResNet 50 の平均推論時間 1.91 1.94
Inception V4 の平均推論時間 7.11 7.27
DeepLab V3 の平均推論時間 6.27 7.13
YOLO V3 の平均推論時間 12.93 15.01
REAL-ESRGAN 平均推論時間 242.24 280.91

そして最後にINT

INT
精度 8チャンネル 2チャンネル
総合評点 1,033 1004
MobileNet V3 の平均推論時間 0.71 0.73
ResNet 50 の平均推論時間 1.48 1.48
Inception V4 の平均推論時間 4.42 4.47
DeepLab V3 の平均推論時間 4.33 4.99
YOLO V3 の平均推論時間 5.15 5.12
REAL-ESRGAN 平均推論時間 122.40 123.57

DRAMのスループットとレイテンシ

まず、2 チャネルおよび 8 チャネル DRAM 構成のレイテンシーを調べます。 CPU とメモリ全体のプロファイリングを行いましたが、唯一の焦点は CPU キャッシュから DRAM への移行でした。 Xeon W9-3475X CPU には 82.50MB の L3 キャッシュしかないため、その移行の開始時にグラフを取り出しました。

テストサイズ (KB) 2チャンネル帯域幅
8 チャネル遅延 (ns)
65,536 48.70080 47.24411
98,304 68.16823 66.25920
131,072 85.38640 82.16685
262,144 114.32570 107.57450
393,216 121.74860 115.40340
524,288 129.38970 123.22100
1,048,576 144.32880 138.28380

ここでは、チャネルを追加することでレイテンシーがわずかに改善されたことがわかります。

AVX512 命令の帯域幅に移ると、2 チャネルと 8 チャネルの間で帯域幅に劇的な違いがあることがわかります。ここでのデルタは、2 チャネルと 8 チャネルの間のパフォーマンス ヒットです。

テスト サイズ (KB) AVX512 2チャンネル帯域幅(GB/s) 8チャンネル帯域幅(GB/s) デルタ(GB/秒の差)
65,536 3,455.28 3,767.91 -312.63
98,304 1,801.88 2,011.83 -209.95
131,072 1,009.21 1,436.50 -427.28
262,144 178.52 508.65 -330.13
393,216 114.76 433.91 -319.15
524,288 94.81 396.90 -302.09
1,048,576 71.12 293.26 -222.13
1,572,864 66.98 267.44 -200.46
2,097,152 65.08 262.50 -197.42
3,145,728 63.63 253.12 -189.50

まとめ

要約すると、システム DRAM は、AI システム、特に CPU 推論のアーキテクチャの基礎となります。高速で信頼性が高く、大容量のメモリを提供する機能は不可欠です。さらに、複数のメモリ チャネルを活用すると、帯域幅が増加し、並列処理が可能になり、ボトルネックが最小限に抑えられるため、AI アプリケーションのパフォーマンスが大幅に向上します。 AI が進化し続けるにつれて、最高レベルのパフォーマンスと効率を確保するには、システム DRAM の最適化が今後も重要な焦点となります。

AI 生成画像、Jordan Ranous 氏の提案による

さらに、テスト データはこの概念を強化し、強化されたメモリ構成の具体的な利点を示しています。 AI とデータ処理の限界を押し上げるにつれて、システム メモリの戦略的な強化は、次世代の AI イノベーションと現実世界のアプリケーションをサポートする上で非常に重要になります。

StorageReview と連携する

ニュースレター | YouTube |ポッドキャスト iTunes/Spotifyは | Instagram | Twitter | TikTok | RSSフィード