AMD EPYC 9754S 专为禁用 SMT 的 HPC 工作负载而设计,提供 128 个核心和 128 个线程,默认 TDP 为 360W。
去年,AMD 通过第四代 EPYC 扩展了其服务器 CPU 产品线。虽然 4 核、128 线程 EPYC 256 占据了榜首,但在 SKU 矩阵中,紧随其后的是 AMD EPYC 9754S。这两种芯片之间的区别很简单,但也很显着。 9754S 禁用了同时多线程 (SMT)。这意味着 9754S 提供与 9754 相同的 128 个内核,但在禁用 SMT 的情况下,只有 9754 个线程,而线程数为 128 个。这一更改为已经禁用 SMT 的客户带来了不错的折扣。
型号 | 颜色 | 最大线程数 | 默认 TDP | 基频(GHz) | 提升频率。 (GHz) | 三级缓存(MB) |
---|---|---|---|---|---|---|
9754 | 128 | 256 | 360W | 2.25 | 3.10 | 256 |
9754S | 128 | 128 | 360W | 2.25 | 3.10 | 256 |
9734 | 112 | 224 | 320W | 2.2 | 3.0 | 256 |
什么是 AMD SMT?9754S 为何存在?
通过 SMT,单个 EPYC CPU 内核可以同时处理两个线程,这可以更有效地利用处理器的资源。当一个线程正在等待从内存加载数据或处于空闲状态时,另一个线程可以执行指令。这意味着核心空闲时间更少,从而可能提高性能。在虚拟化和渲染等用例中尤其如此。
禁用 SMT 可以让制造商将这些芯片作为低端产品销售,确保它们仍然满足特定的性能和稳定性标准。禁用 SMT 的 CPU 可能会受到分级流程、市场细分策略以及满足特定性能或效率需求的愿望的影响,这展示了制造商在产品规划和定位中采取的细致入微的方法。
也就是说,并非所有工作负载都能受益于 SMT,而且很多时候,AMD 服务器可能在 BIOS 中禁用了 SMT。虽然这可能是一个有效的调整,但这也带来了另一个重要的问题。禁用 SMT 的 9754S 芯片比 9754 稍微便宜一些。无论哪种情况,单线程应用程序、计算工作负载以及 CPU 延迟至关重要的任何用例都可以从禁用 SMT 中受益。
AMD EPYC 9754S 与 EPYC 9754 性能对比
我们想要进行两项常规测试:y-cruncher 和 Cinebench 2024,看看使用和不使用 SMT 时我们会得到哪些性能差异。我们将 9754S 和 9754 进行对比,同时运行 9754 并打开和关闭 SMT,看看 9754S 在完全不使用 SMT 的情况下有什么优势。
测试平台及规格:
- 泰安运输 HX TN85-B8261
- 512GB DDR5
- Windows服务器2022的
Cinebench 2024
首先是 Cinebench 2024,在我们的非 S 型号上启用了 SMT。在这里我们可以看到我们处于运行之间的差异差异之内。
Cinebench 2024 CPU | 2 个 EPYC 9754S | 2 个霄龙 9754 |
---|---|---|
CPU 多核 | 2,682 | 2,587 |
CPU单核 | 68 | 69 |
MP比率 | 39.19x | 37.64x |
之所以选择 y-cruncher,是因为该程序的架构被定位为总体系统测试。通过执行适合系统内存的大量 Pi 计算,我们的目的是证明我们长期以来的直觉,即 SMT 会对 CPU 和内存限制工作负载产生负面影响。在深入了解这一切意味着什么之前,让我们先看一下结果。
y-粉碎机 0.8.3
y-cruncher 0.8.3 总计算时间(以秒为单位) (越低越好) |
2 个 EPYC 9754S | 2x EPYC 9754(SMT 关闭) | 2x EPYC 9754(SMT 开启) | 9754 SMT Off 性能提升 |
---|---|---|---|---|
1亿 | 13.481 | 13.546 | 14.139 | 4.65% |
2.5亿 | 23.818 | 24.144 | 28.111 | 15.27% |
5亿 | 40.760 | 40.797 | 49.271 | 17.27% |
10亿 | 77.409 | 77.959 | 95.420 | 18.88% |
25亿 | 203.303 | 202.124 | 233.629 | 12.98% |
50亿 | 475.557 | 476.949 | 520.349 | 8.61% |
100亿 | 1,248.458 | 1,251.36 | 1,242.419 | -0.49% |
y-粉碎机 0.8.4
y-cruncher 0.8.4 总计算时间(以秒为单位) (越低越好) |
2 个 EPYC 9754S | 2x EPYC 9754(SMT 关闭) | 2x EPYC 9754(SMT 开启) | 9754 SMT Off 性能提升 |
---|---|---|---|---|
1亿 | 13.480 | 13.56 | 14.573 | 7.50% |
2.5亿 | 23.680 | 23.501 | 28.649 | 17.34% |
5亿 | 40.819 | 40.547 | 50.082 | 18.50% |
10亿 | 78.523 | 77.466 | 93.842 | 16.32% |
25亿 | 206.399 | 206.078 | 236.070 | 12.57% |
50亿 | 483.797 | 482.79 | 521.867 | 7.29% |
100亿 | 1,269.484 | 1,266.83 | 1,253.446 | -1.28% |
结果分析
深入探讨 AMD SMT 的复杂性,技术界就其对系统性能的影响进行了一场引人注目的对话。从本质上讲,SMT 对于那些追求增强性能的人来说似乎是一个简单的选择。该理论认为:如果启用 SMT 可以实现理想的扩展,那么为什么不将其视为有益的架构选择呢?
SMT 效率和核心架构之间的关系并不是非黑即白的。 SMT 扩展不佳并不一定表明其实施过程中存在缺陷。事实上,它可能暗示了一种强大的核心设计,几乎没有给 SMT 留下显着差异的空间。这一悖论强调了一个重要的行业洞察力:处理器制造商不能声称 SMT 或类似技术具有一刀切的优势。他们承认,虽然 SMT 在某些用例中可以挤出额外的性能,但在其他场景中并非没有缺点。
通过高性能计算和超级计算任务的镜头,SMT 的局限性变得更加明显。虽然将每个核心的线程数加倍的想法听起来很有希望,但现实并不类似于将核心加倍。在极端情况下,这可能会导致性能下降,因为线程会争夺缓存资源。尽管如此,对于大多数多线程应用程序,尤其是那些没有缓存竞争的应用程序,SMT 提升了性能,主要在可以充分发挥其潜力的任务中表现出色。
关闭的思考
AMD SMT 对于企业中常见的各种工作负载非常有用。但并非所有工作负载都需要或受益于 SMT。通过我们的测试,我们展示了 AMD 如何利用制造过程中的变化来提供具有独特价值主张的可靠产品。为需要纯核心而无需 SMT 的特定类型工作负载设计平台的组织可以通过购买 AMD EPYC 9754S 来节省一点钱,该产品在出厂时就永久禁用了 SMT。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅