AI システムにおける DRAM の利点を検証するために、56 つの Kingston KSM46R4BD64PMI-5HAI DDRXNUMX メモリ モジュールを使用して一連のテストを実施しました。
システム DRAM は、AI、特に CPU 推論において重要な役割を果たします。 AI アプリケーションがより複雑になるにつれて、より高速で効率的なメモリ ソリューションに対する需要がますます重要になっています。私たちは、CPU 推論と複数のメモリ チャネルを利用する重要な役割に焦点を当てて、AI におけるシステム DRAM の重要性を検討したいと考えました。
Kingston KSM56R46BD4PMI-64HAI DDR5
AI におけるシステム DRAM の重要性
システム DRAM は、AI システムのデータの中心ハブです。 CPU による迅速なアクセスのためにデータが一時的に保存されるため、迅速なデータ処理が可能になります。
これは、大規模なデータセットを迅速かつ効率的に処理することが利点であるだけでなく必須である AI アプリケーションでは特に重要です。ここでは、AI 機能の強化におけるシステム DRAM の多面的な役割を詳しく見ていきます。
- 速度と効率: AI アルゴリズム、特に推論では、膨大な量のデータを処理するために高速メモリが必要です。システム DRAM はこの速度を提供し、レイテンシを短縮し、システム全体のパフォーマンスを向上させます。
- 容量: 最新の AI アプリケーションは大容量のメモリを必要とします。大容量 DRAM により、より大きなデータセットをメモリ内で処理できるようになり、ストレージ デバイスからデータをフェッチするプロセスが遅くなることがなくなります。
- 信頼性: AI では、データの整合性が最も重要です。システム DRAM はエラー訂正機能を備えており、データの破損を最小限に抑えます。これは、精度が重要なアプリケーションでは不可欠です。
- スケーラビリティ: AI モデルがますます複雑になるにつれて、メモリ リソースを拡張する機能が非常に重要になります。システム DRAM は、進化する AI アプリケーションの増大する要求と、増大するデータ要件に対応するために必要な拡張性を提供します。
- 帯域幅: システム DRAM の高い帯域幅により、より高速なデータ転送速度が可能になり、データへの迅速なアクセスが可能になります。これは、複雑なニューラル ネットワークのトレーニングや大規模なデータ処理タスクの管理に特に役立ちます。
CPU 推論と DRAM
人工知能では、CPU 推論 (トレーニングされたモデルを使用して予測や意思決定を行うプロセス) と DRAM の役割は、AI アプリケーションの効率と速度に大きな影響を与える重要なコンポーネントです。このフェーズでは、大規模なデータセットに迅速にアクセスして処理する必要があるため、メモリを大量に消費します。関係するデータの性質とサイズが複雑なため、システム メモリに特に負荷がかかります。
DRAM は、いくつかの重要な機能強化を通じて AI 操作の CPU 推論を最適化する上で極めて重要です。まず、高いデータ スループットを達成するために必要な帯域幅を提供します。これは、CPU 推論における迅速なデータ処理と意思決定に不可欠です。このスループットの向上は、複雑なタスクのパフォーマンスの向上に直接つながります。
さらに、システム DRAM はデータを CPU の近くに保存することにより、データへのアクセス時間を大幅に短縮し、全体的な推論遅延を最小限に抑えます。この近接性は、迅速で応答性の高いシステムを維持するために非常に重要です。最後に、データが高速に処理され、アクセス時間が短縮されるため、CPU 推論タスクに必要な全体的な電力が大幅に削減されます。これにより、よりエネルギー効率の高い運用が実現され、AI アプリケーションにとってより持続可能でコスト効率の高い環境が確保されます。
複数のメモリチャネルの役割
システム メモリ アーキテクチャは、AI アプリケーションのパフォーマンスを定義する上で不可欠な要素です。複数のメモリ チャネルを使用することは、高速道路を拡張するようなものです。これにより、データ トラフィックの同時フローが促進され、システム全体のパフォーマンスが大幅に向上します。複数のチャネルを採用して AI の運用を最適化する方法は次のとおりです。
- 帯域幅の増加: 複数のチャネルによりメモリ帯域幅が増加します。これは、より多くのデータを同時に処理および分析できるため、AI アプリケーションにとって非常に重要であり、推論時間の短縮につながります。
- 並列処理: 複数のチャネルを使用すると、データを並列処理できるため、大規模なデータセットを含む AI 計算が大幅に高速化されます。
- ボトルネックの軽減: 複数のメモリ チャネルは、システムのボトルネックの軽減に役立ちます。メモリ負荷を分散することで、各チャネルがより効率的に動作できるようになり、システム全体のパフォーマンスが向上します。
テストデータ
AI システム、特に CPU 推論における DRAM の利点を検証するために、さまざまなチャネル構成にわたって 56 つの Kingston KSM46R4BD64PMI-5HAI DDRXNUMX メモリ モジュールを使用して一連のテストを実施しました。
KSM48R40BD4TMM-64HMR 64GB 2Rx4 8G x 80 ビット PC5-4800 CL40 登録済み EC8 288 ピン DIMM | KSM56R46BD4PMI-64HAI 64GB 2Rx4 8G x 80 ビット PC5-5600 CL46 登録済み EC8 288 ピン DIMM | |
転送速度 | 4800 MT / s | 5600 MT / s |
CL(IDD) | 40サイクル | 46サイクル |
行サイクル時間 (tRCmin) | 48ns(分) | 48ns(分) |
リフレッシュからアクティブまでのリフレッシュ/リフレッシュ コマンド時間 (tRFCmin) | 295ns(分) | 295ns(分) |
行のアクティブ時間 | 32ns(分) | 32ns(分) |
行プリチャージ時間 | 16ns(分) | 16ns(分) |
UL定格 | 94V-0 | 94V-0 |
使用温度 | 0 C〜 + 95 C | 0 C〜 + 95 C |
保管温度 | -55 C〜+ 100 C | -55 C〜+ 100 C |
ベースラインを確立するために、集中的な CPU ベンチマークと Geekbench テストを開始し、CPU の個別の機能を測定しました。メモリやストレージを含むシステム全体に大きな負荷をかけるため、厳しい要求を満たす y-cruncher を選択しました。このアプローチにより、極端な条件下でシステム全体の凝集性と耐久性を評価することができ、全体的なパフォーマンスと安定性を明確に把握できます。
最終的に、これらの結果は、システム DRAM とメモリ チャネルの数が AI アプリケーションの計算速度、効率、全体的なシステム パフォーマンスにどのように直接影響するかについての具体的なデータを提供します。
Geekbench 6
最初のアップです Geekbench 6、システム全体のパフォーマンスを測定するクロスプラットフォームのベンチマーク。必要なシステムとの比較を次の場所で見つけることができます。 Geekbenchブラウザ。スコアが高いほど良いです。
Geekbench 6 | キングストン DDR5 2チャンネル |
キングストン DDR5 4チャンネル |
キングストン DDR5 8チャンネル |
CPU ベンチマーク: シングルコア |
2,083 | 2,233 | 2,317 |
CPU ベンチマーク: マルチコア |
14,404 | 18,561 | 19,752 |
Kingston DDR6 の Geekbench 5 の結果では、2、4、および 8 チャネルのセットアップを比較すると、さまざまな変動が示されます。シングルコア テストでは、スコアは 2,083 チャネルの 2,317 から 14,404 チャネルの 19,752 まで、緩やかではありますが一貫して増加しており、チャネル数が増加するにつれて個々のコア操作の効率とスループットが向上していることを示しています。ただし、最も劇的なパフォーマンスの向上はマルチコア テストで観察され、スコアは XNUMX チャネルの XNUMX から XNUMX チャネルの大幅な XNUMX に跳ね上がりました。
yクランチャー
マルチスレッドのスケーラブルなプログラムである y-cruncher は、円周率やその他の数学定数を数兆桁まで計算できます。 2009 年の発売以来、y-cruncher はオーバークロッカーやハードウェア愛好家の間で人気のベンチマークおよびストレス テスト アプリケーションとなっています。このテストでは速いほど優れています。
yクランチャー (総計算時間) |
キングストン DDR5 2チャンネル |
キングストン DDR5 4チャンネル |
キングストン DDR5 8チャンネル |
1億桁 | 18.117秒数 | 10.856秒数 | 7.552秒数 |
2.5億桁 | 51.412秒数 | 31.861秒 | 20.981秒 |
5億桁 | 110.728秒数 | 64.609秒 | 46.304秒 |
10億桁 | 240.666秒数 | 138.402秒 | 103.216秒 |
25億桁 | 693.835秒数 | 396.997秒 | 無し |
2、4、および 8 チャネルにわたる y-cruncher ベンチマークは、チャネル数が増加するにつれて計算速度が明確かつ一貫して向上していることを示しています。 1 億桁の円周率を計算する場合、合計計算時間は 18.117 チャネルの場合の 7.552 秒から、XNUMX チャネルの場合のわずか XNUMX 秒に大幅に短縮されます。
この計算時間の短縮傾向はテスト済みのすべてのスケールで継続しており、25 チャネルから 693.835 チャネルに移行すると、396.997 億桁の計算時間が 2 秒から 4 秒に減少しました。
3DMark – CPU プロファイル
3DMark の CPU プロファイル テストでは、さまざまなスレッド数にわたるプロセッサのパフォーマンスを特に測定し、DDR5 RAM チャネルのさまざまな構成が CPU のワークロード処理と効率にどのような影響を与えるかを詳細に調べます。このテストは、さまざまな DDR5 RAM チャネル設定を使用する場合の、メモリを大量に使用する操作やマルチスレッド アプリケーションにおけるパフォーマンスの微妙な違いを理解するのに役立ちます。
3DMark – CPU プロファイル – スコア | |||
スレッド数 | キングストン DDR5 2チャンネル |
キングストン DDR5 4チャンネル |
キングストン DDR5 8チャンネル |
最大スレッド数 | 15,822 | 15,547 | 15,457 |
16スレッド | 10,632 | 9,515 | 10,367 |
8スレッド | 4,957 | 6,019 | 5,053 |
4スレッド | 3,165 | 3,366 | 3,323 |
2スレッド | 1,726 | 1,765 | 1,781 |
1スレッド | 907 | 911 | 884 |
Kingston DDR3 RAM の 5DMark CPU プロファイル スコアはやや複雑な状況を示しており、最適なチャネル数はスレッド数と特定のワークロードに応じて異なる可能性があることを示しています。
最大スレッド数では、スコアは 15,822 チャネル (4) で最も高く、チャネルが増えるとわずかに減少します。これは、追加のチャネルが高度な並列タスクにメリットを提供しないことを示唆しています。ただし、6,019 スレッドでは、4 チャネル構成のスコアが最高 (2) であり、追加のチャネルによって中間レベルの並列処理の処理が改善されるスイート スポットを示しています。スコアは、スレッド数が低い場合 (1、XNUMX、XNUMX スレッド)、すべてのチャネル構成で同様です。
これらの結果は、より多くのチャネルが特定のマルチスレッド操作に恩恵をもたらす可能性がある一方で、その影響はタスクの性質やシステムのアーキテクチャによって異なることを示唆しています。つまり、あらゆるユースケースにおいて、多ければ多いほど良いというわけではありません。
AI 推論に対する DRAM チャネルの影響
すべてのテストは、UL Labs Procyon Benchmark を通じて Intel OpenVINO API を利用して、Intel Xeon w9-3475X CPU で実行されました。
UL Procyon AI Inference Benchmark は、一流ベンダーの一連の AI 推論エンジンを搭載し、幅広いハードウェアのセットアップと要件に対応します。ベンチマーク スコアは、オンデバイス推論パフォーマンスの便利で標準化された概要を提供します。これにより、社内ソリューションを必要とせずに、現実の状況でさまざまなハードウェア設定を比較対照することができます。
FP32 では結果は誤差の範囲内ですが、INT に移行すると、全体的なスコアではなく粒度の高いスコアを見ると、事態は興味深いものになります。
全体的なスコアでは数値が大きいほど優れており、時間では数値が小さいほど優れています。
まずはFP32プレシジョン
FP 32 | ||
精度 | 8チャンネル | 2チャンネル |
総合評点 | 629 | 630 |
MobileNet V3 の平均推論時間 | 0.81 | 0.77 |
ResNet 50 の平均推論時間 | 1.96 | 1.82 |
Inception V4 の平均推論時間 | 6.93 | 7.31 |
DeepLab V3 の平均推論時間 | 6.27 | 6.17 |
YOLO V3 の平均推論時間 | 12.99 | 13.99 |
REAL-ESRGAN 平均推論時間 | 280.59 | 282.45 |
次はFP16 Precisionです
FP 16 | ||
精度 | 8チャンネル | 2チャンネル |
総合評点 | 645 | 603 |
MobileNet V3 の平均推論時間 | 0.81 | 0.76 |
ResNet 50 の平均推論時間 | 1.91 | 1.94 |
Inception V4 の平均推論時間 | 7.11 | 7.27 |
DeepLab V3 の平均推論時間 | 6.27 | 7.13 |
YOLO V3 の平均推論時間 | 12.93 | 15.01 |
REAL-ESRGAN 平均推論時間 | 242.24 | 280.91 |
そして最後にINT
INT | ||
精度 | 8チャンネル | 2チャンネル |
総合評点 | 1,033 | 1004 |
MobileNet V3 の平均推論時間 | 0.71 | 0.73 |
ResNet 50 の平均推論時間 | 1.48 | 1.48 |
Inception V4 の平均推論時間 | 4.42 | 4.47 |
DeepLab V3 の平均推論時間 | 4.33 | 4.99 |
YOLO V3 の平均推論時間 | 5.15 | 5.12 |
REAL-ESRGAN 平均推論時間 | 122.40 | 123.57 |
DRAMのスループットとレイテンシ
まず、2 チャネルおよび 8 チャネル DRAM 構成のレイテンシーを調べます。 CPU とメモリ全体のプロファイリングを行いましたが、唯一の焦点は CPU キャッシュから DRAM への移行でした。 Xeon W9-3475X CPU には 82.50MB の L3 キャッシュしかないため、その移行の開始時にグラフを取り出しました。
テストサイズ (KB) | 2チャンネル帯域幅 |
8 チャネル遅延 (ns)
|
65,536 | 48.70080 | 47.24411 |
98,304 | 68.16823 | 66.25920 |
131,072 | 85.38640 | 82.16685 |
262,144 | 114.32570 | 107.57450 |
393,216 | 121.74860 | 115.40340 |
524,288 | 129.38970 | 123.22100 |
1,048,576 | 144.32880 | 138.28380 |
ここでは、チャネルを追加することでレイテンシーがわずかに改善されたことがわかります。
AVX512 命令の帯域幅に移ると、2 チャネルと 8 チャネルの間で帯域幅に劇的な違いがあることがわかります。ここでのデルタは、2 チャネルと 8 チャネルの間のパフォーマンス ヒットです。
テスト サイズ (KB) AVX512 | 2チャンネル帯域幅(GB/s) | 8チャンネル帯域幅(GB/s) | デルタ(GB/秒の差) |
65,536 | 3,455.28 | 3,767.91 | -312.63 |
98,304 | 1,801.88 | 2,011.83 | -209.95 |
131,072 | 1,009.21 | 1,436.50 | -427.28 |
262,144 | 178.52 | 508.65 | -330.13 |
393,216 | 114.76 | 433.91 | -319.15 |
524,288 | 94.81 | 396.90 | -302.09 |
1,048,576 | 71.12 | 293.26 | -222.13 |
1,572,864 | 66.98 | 267.44 | -200.46 |
2,097,152 | 65.08 | 262.50 | -197.42 |
3,145,728 | 63.63 | 253.12 | -189.50 |
まとめ:
要約すると、システム DRAM は、AI システム、特に CPU 推論のアーキテクチャの基礎となります。高速で信頼性が高く、大容量のメモリを提供する機能は不可欠です。さらに、複数のメモリ チャネルを活用すると、帯域幅が増加し、並列処理が可能になり、ボトルネックが最小限に抑えられるため、AI アプリケーションのパフォーマンスが大幅に向上します。 AI が進化し続けるにつれて、最高レベルのパフォーマンスと効率を確保するには、システム DRAM の最適化が今後も重要な焦点となります。
AI 生成画像、Jordan Ranous 氏の提案による
さらに、テスト データはこの概念を強化し、強化されたメモリ構成の具体的な利点を示しています。 AI とデータ処理の限界を押し上げるにつれて、システム メモリの戦略的な強化は、次世代の AI イノベーションと現実世界のアプリケーションをサポートする上で非常に重要になります。
StorageReview と連携する
ニュースレター | YouTube |ポッドキャスト iTunes/Spotifyは | Instagram | Twitter | TikTok | RSSフィード