首页 企业版 美光 P320h 2.5″ PCIe 应用加速器评测

美光 P320h 2.5″ PCIe 应用加速器评测

by 凯文·奥布莱恩

去年 2.5 月,美光宣布了一款新的 XNUMX" 外形规格的 P320h应用加速卡. PCIe 卡已成为任何希望从其存储中获得最大响应能力的企业的事实标准。 尽管外形尺寸确实受到传统 2.5" 和 3.5" 外形尺寸不存在的问题的影响,例如热插拔性。 关闭服务器电源并将其从机架中移除以维护内部存储的做法很少见。 因此,2.5" PCIe 外形规格可实现 PCIe 接口可提供的速度,以及标准驱动器提供的可维护性。当然,如果没有服务器支持,新接口意义不大,作为 Micron 公告的一部分,戴尔加强了服务器支持许多第 12 代 PowerEdge 服务器中的新驱动器。戴尔服务器,如我们的 带 Express 闪存的 Dell PowerEdge R720 12G (戴尔的 2.5" PCIe 品牌)提供多达四个 2.5" P320h 驱动器,可通过专用背板在服务器前端通过标准访问进行访问。


去年 2.5 月,美光宣布了一款新的 XNUMX" 外形规格的 P320h应用加速卡. PCIe 卡已成为任何希望从其存储中获得最大响应能力的企业的事实标准。 尽管外形尺寸确实受到传统 2.5" 和 3.5" 外形尺寸不存在的问题的影响,例如热插拔性。 关闭服务器电源并将其从机架中移除以维护内部存储的做法很少见。 因此,2.5" PCIe 外形规格可实现 PCIe 接口可提供的速度,以及标准驱动器提供的可维护性。当然,如果没有服务器支持,新接口意义不大,作为 Micron 公告的一部分,戴尔加强了服务器支持许多第 12 代 PowerEdge 服务器中的新驱动器。戴尔服务器,如我们的 带 Express 闪存的 Dell PowerEdge R720 12G (戴尔的 2.5" PCIe 品牌)提供多达四个 2.5" P320h 驱动器,可通过专用背板在服务器前端通过标准访问进行访问。 

由于 2.5" PCIe 驱动器本质上是较大同级驱动器的一半版本,因此容量也相应减少。美光和戴尔提供 175GB 和 350GB 容量的驱动器,最高可达 1.2TB,可填充 PowerEdge 12G 服务器的所有四个插槽。有趣的是,驱动器的性能并没有减少一半,即使它们是 4 通道而不是全尺寸卡的 8 通道。两种容量都提供 415,000 范围内的随机读取 IOPS,而全尺寸卡为 785,000,并且顺序读取吞吐量高达 1.75Gb/s,高于 3.2Gb/s。

尽管服务器可以在系统前端获得 PCIe 闪存的性能,但还是有一些妥协。 例如,背板占用的空间通常专用于 8U 服务器中常见的第二批 2.5 x 2" 驱动器托架。因此,在 2U 机箱中,一台服务器最多可配置四个 2.5" P320h 闪存驱动器及以上到 8 个标准 2.5" 驱动器托架。另一个明显的潜在问题是,由于接口的原因,这些驱动器不能配置在硬件 RAID 中。但是它们可以放在软件 RAID 中。

就戴尔而言,他们通过几种方式解决了这些问题。 首先,部署该平台的人员普遍接受驱动器托架数量或总容量等权衡,因为他们更关心的是为应用程序提供一定水平的存储性能,同时获得可维护性的额外好处。 对于那些数据库太大以至于单个 2.5" P320h 无法处理并且软件 RAID 不可行的人,戴尔发布了 流体缓存软件,这可以使 2.5" P320h 驱动器能够加速其他托架中更高容量的硬盘驱动器。还值得注意的是,这种特定部署并不适合所有人;它仍然是一个新兴的解决方案,汇集了同类最佳产品硬件提供服务器市场上不存在的东西。 

在这次审查中,我们的配置包括 戴尔R720 所有四个 Express Flash 插槽均装有 350GB 2.5" Micron P320h 驱动器。 

美光 P320h 2.5" PCIe 规格

  • 容量
    • 175GB(MTFDGAL175SAH-1N3AB)
    • 350GB(MTFDGAL350SAH-1N3AB)
  • 美光 SLC NAND(34 纳米)
  • 接口:x4 PCIe Gen2
  • 连接器:SATA/SAS/PCIe 组合
  • 美光RAIN(独立NAND冗余阵列)技术
  • 自我监控、分析和报告技术 (SMART) 命令集支持
  • 性能
    • 顺序读/写性能:高达 1.75/1.1 GB/s
    • 随机读/写性能:高达 415,000/145,000 IOPS
    • 延迟:<50μs
  • 电力
    • 有源功耗:25W(最大)
    • 空闲/待机/睡眠功耗(平均):6.5W
  • 工作温度:0C- 70C – 温度节流支持
  • 震动
    • 冲击:400 毫秒时为 2.0G
    • 振动:3.1 Grms,5–500 Hz,每轴 30 分钟
  • 不可纠正的误码率:<每 1 个扇区17 位读
  • MTTF:2 万设备小时
  • 耐力 – 硬盘寿命:12.5PB (175GB)、25PB (350GB)
  • 戴尔服务器支持 – PowerEdge 12G 背板最多支持四个驱动器 
  • 尺寸(高x宽x长):15 x 69.85 x 100.5 毫米
  • 重量:172g (175GB), 175g (350GB)

设计与建造

想想美光的 2.5" P320h,本质上就好像美光将标准 PCIe P320h 切成两半,然后将其重新包装成 15mm 2.5" 外形。 从表面上看,大多数人永远不会注意到; 甚至端口看起来也与标准 SAS 接口非常相似。 正如我们在下面的 R720 中看到的那样,神奇之处在于专用背板。 

专用背板最多支持四个 2.5" P320h 驱动器,这些驱动器通过电缆连接到服务器背面的 PCIe 扩展卡。R720 内部的布局简洁且易于维修。事实上,戴尔已经确认背板、扩展卡和布线都可以随着存储的发展而升级,即升级到 NVMe。该平台的灵活性对于希望能够将其存储迁移到最新和最好的早期采用者来说很有吸引力。

当我们检查各个驱动器本身时,外壳由实心铝制成,其灰色具有持久的工业外观。 顶盖带有戴尔产品信息标签,其中包含所有相关信息(容量、型号等)。 侧面轮廓显示了四个螺丝孔,使驱动器能够安装在热插拔驱动器盒中。 移动到设备的后部,有一个 Express Bay SFF-8639 连接器,它类似于 SAS 或 SATA 连接器,但也带有 x4 PCIe 信号。

机箱底部有脊状结构,以帮助驱动器被动冷却,拆下驱动器后,我们可以看到机箱底部的内部衬有几个导热垫。 这些导热垫吸入热量,然后通过外壳散热。

在 2.5" 美光 P320h 内部,有一个定制的 16 通道美光/IDT ASIC 控制器,类似于全尺寸 HHHL 美光 P320h 中使用的控制器,但内存通道只有一半。美光还提供 NAND 封装跨两个 PCB,总计 512GB,超额配置为 350GB 可用。

顶部 PCB 包括连接器、控制器和 DRAM 以及 8 个 NAND 封装。 底部 PCB 具有流线型布局,12 个 NAND 封装排列在一侧的中心,12 个在另一侧。 它还在 PCB 的每一侧都有两个连接器,用于连接两个子板。  

测试背景

我们使用 Dell PowerEdge R720 12G 作为 2.5" Micron P320h 的测试平台,因为它配备了使用 Micron SSD 的 Dell Express Flash 配置。我们的测试系统配置了以下硬件:

  • 2 x Intel Xeon E5-2640(2.6GHz,15MB 缓存,6 核)
  • 英特尔 C602 芯片组
  • 内存 – 192GB (24 x 8GB) 1333Mhz DDR3 Registered RDIMM
  • 中央操作系统 6.3 64 位
    • 8 x 300GB Seagate Savvio 15K.3 in RAID10 启动

应用性能分析

在企业市场中,产品在纸面上的表现与它们在生产环境中的表现存在巨大差异。 在 StorageReview,我们了解扩展到应用程序测试的重要性,我们的第一个测试是我们的 MarkLogic NoSQL 数据库存储基准. 虽然综合测试将继续成为我们审查的重要部分,但我们计划扩展我们的应用程序测试以涵盖广泛的领域,包括 VDI 性能、VM 负载生成、扩展的数据库性能测试以及许多其他领域。

在我们的 MarkLogic NoSQL 数据库环境中,我们测试了四个 SATA 或 SAS SSD 组,单个全尺寸 PCIe 解决方案,可用容量大于或等于 200GB。 由于我们的 Dell PowerEdge R720 12G 配备了四个 Express Flash SSD,我们在 MarkLogic 测试中利用了所有这些,每个数据库集群专用一个。 我们的 NoSQL 数据库需要大约 650GB 的可用空间才能使用,平均分配给四个数据库节点。 在我们的测试环境中,我们使用 SCST 主机(R720 位于其中)并在 JBOD 中呈现每个单独的 SSD,每个数据库节点分配一个。 该测试以 24 个间隔重复进行,对于此类 SSD 总共需要 30-36 小时。 测量 MarkLogic 软件看到的内部延迟,我们记录了总平均延迟以及每个 SSD 的间隔延迟。

Dell PowerEdge R720 12G 是我们通过 MarkLogic NoSQL 测试运行的计算领域中第一台出厂时提供高性能闪存的服务器。 它的平均整体延迟为 1.239 毫秒,非常出色,在我们的整体排名中名列前茅。

查看我们测量的每个区域的总体平均延迟,我们记录了高达 16 毫秒的峰值,大多数峰值在 3-11 毫秒之间。

企业综合工作负载分析

闪存性能在每个存储设备的整个预处理阶段各不相同。 我们的企业存储基准流程首先分析驱动器在彻底预处理阶段的运行方式。 每个可比较的驱动器都使用供应商的工具进行安全擦除,在 16 个线程的重负载下使用相同的工作负载预处理到稳定状态,每个线程有 16 个未完成队列,然后按设定的时间间隔进行测试在多个线程/队列深度配置文件中显示轻度和重度使用情况下的性能。

预处理和初级稳态测试:

  • 吞吐量(读+写 IOPS 聚合)
  • 平均延迟(读+写延迟一起平均)
  • 最大延迟(峰值读取或写入延迟)
  • 延迟标准偏差(读+写标准偏差一起平均)

我们的企业综合工作负载分析包括四个基于实际任务的配置文件。 开发这些配置文件是为了更容易与我们过去的基准测试以及广泛发布的值(例如最大 4K 读写速度和 8K 70/30,通常用于企业驱动器)进行比较。 我们还包括两个传统的混合工作负载,传统的文件服务器和网络服务器,每个都提供广泛的传输大小组合。

  • 4k
    • 100% 读取或 100% 写入
    • 100% 万
  • 8k 70/30
    • 70% 读取,30% 写入
    • 100% 万
  • 128k(连续)
    • 100% 读取或 100% 写入
    • 100% 万
  • 文件服务器
    • 80% 读取,20% 写入
    • 10% 512b、5% 1k、5% 2k、60% 4k、2% 8k、4% 16k、4% 32k、10% 64k
  • 支持网络端
    • 100% 阅读
    • 22% 512b、15% 1k、8% 2k、23% 4k、15% 8k、2% 16k、6% 32k、7% 64k、1% 128k、1% 512k

我们的第一个测试是 128k 测试,这是一个大块顺序测试,显示了最高的顺序传输速度。 查看 128% 写入和 100% 读取活动的 100k 性能,美光 P320h x 4 实现了 6.88 GB/s 读取和 4.7GB/s 写入。

在我们的下一个企业工作负载中,我们将研究具有 4T/16Q 出色工作负载的完全随机 16k 写入预处理配置文件。 美光 P320h x 4 测得的突发速度为 1.1 万 IOPS,稳定在略低于 600,000 IOPS。 单个 P320h 的测量速度几乎相同。

在我们的预处理 4k 随机写入 16T/16Q 工作负载中,美光 P320h 的突发时间为 0.9-1.7 毫秒,稳态时间为 1.8 毫秒。

查看我们 4k 预处理工作负载的最大延迟,美光 P320h 的峰值响应时间从 70-175 毫秒开始,随着它接近稳定状态增加到 60-200 毫秒。

比较延迟标准偏差,美光 P320h x 1 的峰值比美光 P320h x 4 低,但即使是最高峰也只有 1.3 毫秒左右。

在我们对 Micron P6h x 320 的 4 小时预处理期结束后,其稳态随机读取 4k 性能测得峰值接近 1.65 万 IOPS,写入速度为 571,173 IOPS。 Micron P320h x 1 在规模上表现出几乎相同的性能。

将平均延迟与具有 16% 16k 随机读取活动的繁重 100T/4Q 工作负载进行比较,测得美光 P320h x 4 的读取活动为 0.62 毫秒,写入活动为 1.79 毫秒——几乎与美光 P320h x 1 相同。

在我们的 4k 稳态测试中比较最大延迟时,美光 P320h x 4 的峰值读取延迟为 115.9 毫秒,峰值写入延迟为 27.3 毫秒。 美光 P320h x 1 表现更好,峰值读取延迟为 45.4 毫秒,峰值写入延迟为 6.2 毫秒。

从延迟标准偏差来看,Micron P320h x 1 在读取和写入活动方面提供了更多的延迟一致性。

我们的下一个测试切换到 8K 70/30 混合工作负载,其中 Micron P320h x 4 的突发速度高达 900,000 IOPS,然后稳定在稳定状态下的 480,000 IOPS 左右。 同样,美光 P320h x 1 的性能在规模上也相当。

比较我们 8k 70/30 预处理 16T/16Q 工作负载的平均延迟,美光 P320h x 1 和 x 4 提供的突发延迟在 2.0-1.2 毫秒之间,增加到接近稳态的 2.2 毫秒。

在 8k 70/30 工作负载下,美光 P320h x 4 的峰值延迟范围从突发期间的 25-130 毫秒到接近稳态时的 40-80 毫秒。

比较我们 8k 70/30 预处理工作负载中的延迟一致性,美光 P320h x 4 的标准偏差略高于美光 P320h x 1。

与我们在 16% 16K 写入测试中执行的固定 100 线程、4 队列最大工作负载相比,我们的混合工作负载配置文件可在各种线程/队列组合中扩展性能。 在这些测试中,我们将工作负载强度从 2 个线程和 2 个队列扩展到 16 个线程和 16 个队列。 在我们扩展的 8K 70/30 测试中,美光 P320h x 4 从 150,000-450,000 IOPS 扩展,从 2T/16Q 开始具有更高的 IOPS。 Micron P320h x 1 的缩放比例类似。

在我们 8k 70/30 测试的缩放平均延迟部分中,美光 P320h 从 0.15T/2Q 的 2ms 缩放到 1.9T/2.2Q 的 16-16ms。

在我们的 8k 70/30 主测试中,从 320T4Q 开始,在美光 P8h x 16 上测得的最大延迟更高,峰值响应时间的总体范围为 12-78 毫秒。

美光 P320h x 4 和美光 P320h x 1 的延迟一致性相似,除了美光 P0.87h x 320 的峰值仅达到 4 毫秒。

 

文件服务器工作负载代表了每个特定设备的更大传输大小频谱,因此驱动器必须处理从 4b 到 8k 的请求,而不是适应静态 512k 或 64k 工作负载。 在此工作负载中,美光 P320h x 4 提供了 300-365,000 IOPS 的突发速度,并且在接近稳定状态时达到约 280,000 IOPS。

在我们的文件服务器预处理测试中的低工作负载下,平均延迟测​​量为 2.8-3.3 毫秒,在测试中略微增加到 3.6 毫秒。

在我们的文件服务器测试的预处理阶段,Micron P320h x 4 的峰值响应时间在突发模式下为 7-35 毫秒,并在接近稳态时增加到 12-70 毫秒。

评估延迟一致性,在突发模式下,美光 P320h x 4 和美光 P320h x 1 具有几乎相同的延迟标准偏差。

在文件服务器预处理过程以恒定的 16T/16Q 负载完成后,我们开始进行主要测试,测量 2T/2Q 和 16T/16Q 之间设定水平的性能。 在我们的主要文件服务器工作负载中,美光 P320h x 4 的范围从 115,000T/2Q 的 2 IOPS 到 280,000T/16Q 的 16 IOPS。 美光 P320h x 1 在比例上有类似的标记。

Micron P320h x 4 的平均延迟范围从 0.52T/0.53Q 的 2-2 到 2.75T/3.60Q 的 16-16ms。

比较最大延迟时,美光 P320h x 4 有几个峰值,使其性能无法与峰值时间为 320 毫秒的美光 P1h x 990 相匹配。

从峰值延迟到延迟标准偏差,美光 P320h x 4 和美光 P320h x 1 的表现几乎相同。

在我们最后一个涵盖 Web 服务器配置文件的综合工作负载(传统上是 100% 读取测试)中,我们应用 100% 写入活动以在我们的主要测试之前完全预处理每个驱动器。 在这种压力很大的预处理测试下,美光 P320h x 4 的突发速度在 110,000-190,000 IOPS 之间,尽管当它接近稳态性能时,该数字约为 77,000-80,000 IOPS。

在我们的压力 Web 服务器预调节测试中,平均延迟从 5-10 毫秒开始,随着 Micron P12.5h 接近稳定状态而增加到 320 毫秒。

当 Micron P320h x 4 接近稳态时,其峰值响应时间介于 40-55 毫秒之间。

美光 P320h 的延迟一致性随着驱动器接近稳态条件而降低,保持在 2.5 毫秒左右。

切换到我们使用 100% 读取配置文件的 Web 服务器测试的主要部分,Micron P320h x 4 的性能从 125,000-365,000 IOPS 扩展。 与 Micron P320h x 1 相比,这些数字在比例上相匹配。

在我们的读取密集型 Web 服务器主测试中,美光 P320h 提供的平均延迟从 0.2T/2Q 的 2 毫秒扩展到 2.2T/2.8Q 的 16-16 毫秒。

与 Micron P320h 相比,Micron P4h x 16 从 4T320Q 开始的峰值响应时间更高。 在工作负载过程中测得的最大延迟在 2-23 毫秒之间。

切换到延迟一致性后,美光 P320h 提供的延迟标准偏差范围为 0.1-0.68 毫秒。

结语

2.5" 美光 P320h PCIe 应用程序加速器很有趣,原因有很多。不过最重要的是发挥 PCIe 闪存的性能潜力,并将其压缩为前置式易于维护的外形尺寸。美光是率先将这种外形推向市场,戴尔率先采用它,创新的服务器背板设计与许多 R720 12G 服务器兼容。虽然该平台迫使用户放弃四个驱动器托架,但对于市场来说,这种类型的存储是有针对性的因为,这可能是一个可以接受的权衡。这当然不是也不应该被解释为大众市场游戏,它与服务器一样小众。但对于那些拥有较小数据库或较大数据库的人来说,可以从中受益来自 Fluid Cache,新颖的设计完美地满足了某些需求。 

PowerEdge 720 12G 的 Express Flash 配置在配备四个 SSD 时,无疑是我们迄今为止测试过的最快的存储平台,在我们所有的存储基准测试中都获得了最高分。 在原始带宽方面,2.5 个 320" Micron P6.9h SSD 能够推动 4.7GB/s 的读取和 4GB/s 的顺序加载写入。切换到 1.6K 传输峰值随机 I/O 吞吐量,系统没有问题在稳定状态下管理 571M IOPS 读取和 8k IOPS 写入。当查看我们的 70k 30/720 工作负载时,R480,000 稳定在 XNUMX IOPS 稳定状态,即使按照全尺寸 PCIe 应用加速器标准也需要两个或更多达到或超过该领域班级领导者的水平。

一个特定的服务器或存储产品可以声称是业内最快的并不常见,但戴尔和美光合作做到了这一点。 我们的 R720 配备四个 2.5" P320h 闪存驱动器,得分超过市场上任何单个 PCIe 卡,并且具有驱动程序支持,可以很好地扩展总体性能。要使这些驱动器具有计算内存储,至少需要两个标准 PCIe 卡和取决于驱动程序集可能无法提供可扩展的性能。此外,该平台可以从前端进行维护,从而可以进行无中断的配置更改。 

优点

  • 2.5" 托架的最佳性能
  • 专用全闪存阵列范围内的带宽和 I/O 性能
  • 具有热插拔功能,易于维修

缺点

  • 必须将 8 个传统 2.5" 托架换成 4 个 Express Flash 托架

底线

戴尔服务器和 2.5" Micron P320h 的组合提供了真正独特的存储解决方案,以 2.5" 外形提供最快的存储。 对于需要 PCIe 提供的性能和标准前置驱动器的可维护性的用户,此解决方案具有巨大的潜力。

Dell Express 闪存页面

讨论这篇评论