主页 企业AI 评估 DRAM 通道对 AI 推理性能的影响

评估 DRAM 通道对 AI 推理性能的影响

by 乔丹拉努斯

为了验证 DRAM 在 AI 系统中的优势,我们使用八个金士顿 KSM56R46BD4PMI-64HAI DDR5 内存模块进行了一系列测试。

系统 DRAM 在 AI 中发挥着重要作用,特别是在 CPU 推理中。随着人工智能应用变得越来越复杂,对更快、更高效的内存解决方案的需求变得越来越重要。我们想要了解系统 DRAM 在 AI 中的重要性,重点关注 CPU 推理以及利用多个内存通道的重要作用。

Kingston KSM56R46BD4PMI-64HAI DDR5

Kingston KSM56R46BD4PMI-64HAI DDR5

系统 DRAM 在 AI 中的重要性

系统 DRAM 是人工智能系统中数据的中央枢纽。数据被临时存储以便CPU快速访问,从而实现快速数据处理。

这在人工智能应用中尤其重要,因为快速有效地处理大型数据集不仅是一种优势,而且是必要的。以下是系统 DRAM 在增强 AI 功能方面的多方面作用的详细介绍:

  • 速度和效率:人工智能算法,尤其是推理算法,需要高速内存来处理大量数据。系统 DRAM 提供了这种速度,减少了延迟并提高了整体系统性能。
  • 容量:现代人工智能应用需要大内存容量。高容量 DRAM 确保可以在内存中处理更大的数据集,从而避免从存储设备获取数据的过程变慢。
  • 可靠性:在人工智能中,数据完整性至关重要。系统 DRAM 具有纠错功能,可确保最大限度地减少数据损坏,这对于精度至关重要的应用至关重要。
  • 可扩展性:随着人工智能模型变得越来越复杂,扩展内存资源的能力变得极其重要。系统 DRAM 提供必要的可扩展性,以满足不断发展的人工智能应用及其不断升级的数据需求日益增长的需求。
  • 带宽:系统 DRAM 更高的带宽可实现更快的数据传输速率,从而更快地访问数据。这对于训练复杂的神经网络和管理大规模数据处理任务特别有益。

CPU 推理和 DRAM

在人工智能中,CPU 推理(使用经过训练的模型进行预测或决策的过程)和 DRAM 的作用是显着影响人工智能应用程序的效率和速度的关键组件。由于需要快速访问和处理大型数据集,此阶段需要占用大量内存。由于所涉及数据的复杂性和大小,它对系统内存的要求特别高。

DRAM 通过多项关键增强功能在优化 AI 操作的 CPU 推理方面发挥着关键作用。首先,它提供了实现高数据吞吐量所需的带宽,这对于CPU推理中的快速数据处理和决策至关重要。吞吐量的增加直接转化为复杂任务中更快的性能。

此外,通过将数据存储在靠近 CPU 的位置,系统 DRAM 显着减少了访问数据的时间,从而最大限度地减少了整体推理延迟。这种接近对于维持快速响应的系统至关重要。最后,随着数据处理速度的加快和访问时间的缩短,CPU 推理任务所需的总体功耗也显着降低。这将带来更节能的运营,并确保为人工智能应用提供更具可持续性和成本效益的环境。

多个内存通道的作用

系统内存架构是定义人工智能应用性能的重要元素。利用多个内存通道就像拓宽高速公路——它可以同时促进更大的数据流量,从而显着提高整体系统性能。以下是如何利用多个渠道来优化人工智能操作:

  • 增加带宽:多个通道增加内存带宽。这对于人工智能应用程序至关重要,因为它们可以同时处理和分析更多数据,从而缩短推理时间。
  • 并行处理:通过多个通道,可以并行处理数据,显着加快涉及大型数据集的人工智能计算速度。
  • 减少瓶颈:多个内存通道有助于减少系统瓶颈。分配内存负载使每个通道能够更有效地运行,从而增强整体系统性能。

测试数据

为了验证 DRAM 在 AI 系统(特别是 CPU 推理)中的优势,我们使用八个金士顿 KSM56R46BD4PMI-64HAI DDR5 内存模块在不同的通道配置中进行了一系列测试。

KSM48R40BD4TMM-64HMR 64GB 2Rx4 8G x 80 位 PC5-4800 CL40 寄存 EC8 288 针 DIMM KSM56R46BD4PMI-64HAI 64GB 2Rx4 8G x 80 位 PC5-5600 CL46 寄存式 EC8 288 针 DIMM
传输速度 4800 MT/s 5600 MT/s
中文(国际直拨) 40周期 46周期
行周期时间 (tRCmin) 48ns(分钟) 48ns(分钟)
刷新到活动/刷新命令时间 (tRFCmin) 295ns(分钟) 295ns(分钟)
行活动时间 32ns(分钟) 32ns(分钟)
行预充电时间 16ns(分钟) 16ns(分钟)
UL 等级 94 伏 – 0 94 伏 – 0
工作温度 0 C到+ 95 C. 0 C到+ 95 C.
储藏温度 -55 C至+ 100 C. -55 C至+ 100 C.

为了建立基线,我们启动了重点 CPU 基准测试和 Geekbench 测试,衡量 CPU 的独立功能。为了对整个系统(包括内存和存储)施加严格压力,我们选择了 y-cruncher,因为它具有严格的要求。这种方法使我们能够评估整个系统在极端条件下的凝聚力和耐久性,从而提供整体性能和稳定性的清晰画面。

最终,这些结果将提供有关系统 DRAM 和内存通道数量如何直接影响人工智能应用中的计算速度、效率和整体系统性能的具体数据。

Geekbench 6

首先是 Geekbench 6,衡量整体系统性能的跨平台基准。您可以在以下位置找到与任何您想要的系统的比较 Geekbench浏览器. 分数越高越好。

Geekbench 6 金士顿DDR5
2通道
金士顿DDR5
4通道
金士顿DDR5
8通道
CPU 基准测试:
单核
2,083 2,233 2,317
CPU 基准测试:
多核
14,404 18,561 19,752

在比较 6、5 和 2 通道设置时,金士顿 DDR4 的 Geekbench 8 结果显示出一系列变化。在单核测试中,分数小幅但稳定地从两个通道的 2,083 增加到八个通道的 2,317,这表明随着通道数量的增加,各个核心操作的效率和吞吐量有所提高。然而,最显着的性能提升是在多核测试中,分数从两个通道的 14,404 跃升至八通道的 19,752。

y 粉碎机

y-cruncher 是一个多线程且可扩展的程序,可以将 Pi 和其他数学常数计算到数万亿位。 自 2009 年推出以来,y-cruncher 已成为超频玩家和硬件爱好者流行的基准测试和压力测试应用程序。 在这个测试中越快越好。

y 粉碎机
(总计算时间)
金士顿DDR5
2通道
金士顿DDR5
4通道
金士顿DDR5
8通道
1亿位数字 18.117秒 10.856秒 7.552秒
2.5亿位数字 51.412秒 31.861 秒 20.981 秒
5亿位数字 110.728秒 64.609 秒 46.304 秒
10亿位数字 240.666秒 138.402 秒 103.216 秒
25 亿位数字 693.835秒 396.997 秒  无

2、4 和 8 个通道的 y-cruncher 基准测试表明,随着通道数量的增加,计算速度得到了明显且一致的改进。对于计算 1 亿位 Pi,总计算时间从两个通道的 18.117 秒显着减少到八通道的 7.552 秒。

这种计算时间减少的趋势在所有测试的尺度上持续存在,当从 25 个通道变为 693.835 个通道时,计算 396.997 亿位数字的时间从 2 秒减少到 4 秒。

3DMark – CPU 配置文件

3DMark 中的 CPU 配置文件测试专门测量处理器在一系列线程数下的性能,详细了解 DDR5 RAM 通道的不同配置如何影响 CPU 工作负载处理和效率。此测试有助于了解使用各种 DDR5 RAM 通道设置时内存密集型操作和多线程应用程序的性能细微差别。

3DMark – CPU 配置文件 – 分数
线程数 金士顿DDR5
2通道
金士顿DDR5
4通道
金士顿DDR5
8通道
最大线程数 15,822 15,547 15,457
16线程 10,632 9,515 10,367
8线程 4,957 6,019 5,053
4线程 3,165 3,366 3,323
2线程 1,726 1,765 1,781
螺纹1 907 911 884

金士顿 DDR3 RAM 的 5DMark CPU 配置文件分数显示了一个有些复杂的情况,表明最佳通道数可能会根据线程数和特定工作负载而变化。

在最大线程数下,两个通道的分数最高 (15,822),而通道数越多,分数略有下降,这表明额外的通道不会为高度并行任务带来好处。然而,在 4 个线程中,6,019 通道配置得分最高 (4),这表明附加通道可以改善中级并行性的处理。在线程数较低(2、1 和 XNUMX 线程)的所有通道配置中,分数相似。

这些结果表明,虽然更多通道可以使某些多线程操作受益,但其影响因任务性质和系统架构而异。也就是说,对于每个用例来说,更多并不总是更好。

DRAM 通道对 AI 推理的影响

所有测试均在 Intel Xeon w9-3475X CPU 上进行,并通过 UL 实验室 Procyon 基准测试利用 Intel OpenVINO API。

UL Procyon AI 推理基准测试配备了一系列来自顶级供应商的 AI 推理引擎,可满足广泛的硬件设置和要求。基准分数提供了设备上推理性能的便捷且标准化的摘要。这使我们能够在现实情况下比较和对比各种硬件设置,而无需内部解决方案。

FP32 上的结果在误差范围内,但当您转向 INT 时,查看细粒度分数而不是总体分数,事情会变得有趣。

数字越大总分越好,数字越小时间越好。

首先是 FP32 Precision

FP 32
平台精度 8通道 2通道
总体得分 629 630
MobileNet V3 平均推理时间 0.81 0.77
ResNet 50 平均推理时间 1.96 1.82
Inception V4 平均推理时间 6.93 7.31
DeepLab V3 平均推理时间 6.27 6.17
YOLO V3 平均推理时间 12.99 13.99
REAL-ESRGAN 平均推理时间 280.59 282.45

接下来是 FP16 Precision

FP 16
平台精度 8通道 2通道
总体得分 645 603
MobileNet V3 平均推理时间 0.81 0.76
ResNet 50 平均推理时间 1.91 1.94
Inception V4 平均推理时间 7.11 7.27
DeepLab V3 平均推理时间 6.27 7.13
YOLO V3 平均推理时间 12.93 15.01
REAL-ESRGAN 平均推理时间 242.24 280.91

最后是INT

INT
平台精度 8通道 2通道
总体得分 1,033 1004
MobileNet V3 平均推理时间 0.71 0.73
ResNet 50 平均推理时间 1.48 1.48
Inception V4 平均推理时间 4.42 4.47
DeepLab V3 平均推理时间 4.33 4.99
YOLO V3 平均推理时间 5.15 5.12
REAL-ESRGAN 平均推理时间 122.40 123.57

DRAM 吞吐量和延迟

首先,查看 2 通道和 8 通道 DRAM 配置的延迟。我们分析了整个 CPU 和内存,但我们唯一关注的是从 CPU 缓存到 DRAM 的过渡。由于我们的 Xeon W9-3475X CPU 只有 82.50MB 的 L3 缓存,因此我们在过渡开始时就拿出了图表。

测试大小 (KB) 2 通道带宽
8 通道延迟 (ns)
65,536 48.70080 47.24411
98,304 68.16823 66.25920
131,072 85.38640 82.16685
262,144 114.32570 107.57450
393,216 121.74860 115.40340
524,288 129.38970 123.22100
1,048,576 144.32880 138.28380

在这里,我们可以看到添加更多通道可以小幅改善延迟。

继续讨论 AVX512 指令的带宽,我们可以看到 2 通道和 8 通道之间的带宽存在显着差异。这里的 Delta 是 2 到 8 个通道之间的性能影响。

测试大小 (KB) AVX512 2通道带宽(GB/s) 8通道带宽(GB/s) 增量(GB/s 差异)
65,536 3,455.28 3,767.91 -312.63
98,304 1,801.88 2,011.83 -209.95
131,072 1,009.21 1,436.50 -427.28
262,144 178.52 508.65 -330.13
393,216 114.76 433.91 -319.15
524,288 94.81 396.90 -302.09
1,048,576 71.12 293.26 -222.13
1,572,864 66.98 267.44 -200.46
2,097,152 65.08 262.50 -197.42
3,145,728 63.63 253.12 -189.50

结论

综上所述,系统 DRAM 是 AI 系统架构的基石,尤其是在 CPU 推理方面。它提供高速、可靠和大容量内存的能力是不可或缺的。此外,利用多个内存通道可以通过增加带宽、实现并行处理和最小化瓶颈来显着提高人工智能应用程序的性能。随着人工智能的不断发展,优化系统 DRAM 仍将是确保最高水平的性能和效率的关键焦点。

由 Jordan Ranous 提示的 AI 生成图像

此外,测试数据强化了这一概念,展示了增强型内存配置的切实好处。随着我们突破人工智能和数据处理的界限,系统内存的战略增强对于支持下一代人工智能创新和实际应用至关重要。

参与 StorageReview

订阅电子邮件 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅