雖然適用於讀取密集型工作負載,但較差的寫入效能限制了其在人工智慧和資料密集型環境中的多功能性。
DapuStor J5060 SSD 是一款高容量、以企業為導向的 NVMe 驅動器,旨在滿足資料密集型環境中對高密度、節能儲存日益增長的需求。它基於 3D Enterprise QLC NAND Flash,支援具有 NVMe 4.0a 的 PCIe 4 x1.4 接口,採用標準 U.2 15mm 外形尺寸。該驅動器專為讀取性能和每 TB 成本至關重要的情況而設計。這使得它可能適用於雲端基礎設施、人工智慧推理、大數據平台和智慧製造管道等寫入操作不頻繁或可預測的應用程式。
DapuStor J5060 功能與效能簡介
J61.44 的容量可擴展至 5060TB,為希望整合儲存同時控制物理密度和功耗的組織提供了一個有趣的解決方案。單一 U.2 驅動器的容量等級對於管理多 PB 資料集的超大規模和企業環境尤其重要,因為機架空間和能源效率是真正的限制因素。 J5060 包括企業級功能,例如雙埠支援、進階斷電保護和快閃記憶體級電壓最佳化,以協助確保高可用性部署中的資料完整性和穩定性。
就其效能而言,J5060 適用於讀取密集型工作負載。據稱,它的順序讀取吞吐量高達 7,300MB/s,並支援高達 1.5 萬次 4K 隨機讀取 IOPS,對於基於 QLC 的驅動器來說,這是非常強大的。然而,它的寫入效能明顯受到限制,30KB 隨機寫入的規格僅為 16K IOPS,而這種限制在我們的整個工作負載測試中都是一致的。此磁碟機的寫入頻寬額定為 3,000MB/s。然而,在持續或高深度寫入操作下,這種情況並不好,這可能會影響其對混合或寫入密集型任務的適用性。
使用 QLC NAND 使 DapuStor 能夠以較低的成本提供這些高容量,但也有代價。五年內的耐用性僅為 0.5 DWPD(每日驅動器寫入次數),這使得 J5060 最適合以讀取為中心的、寫入量低到中等的應用程式。涉及頻繁檢查點、交易日誌記錄或主動快取的工作負載可能會對驅動器的耐用性造成壓力,並暴露出寫入效能的限制。
就電源而言,該驅動器在讀取時消耗約 12 瓦的功率,在寫入時消耗高達 23 瓦的功率,而在空閒時僅消耗 5 瓦的功率。這些數字與現代企業資料中心的預期非常吻合,特別是對於高密度部署,每 TB 的功率越來越受到關注。
在本次評測中,我們將重點放在 61.44TB 型號,並將透過一系列合成和應用程式一致的工作負載檢查其實際效能概況。
DapuStor J5060規格
J5060 | |
---|---|
容量(TB) | 61.44 |
外形 | U.2 15毫米 |
介面 | PCIe 4.0 x4,NVMe 1.4a,支援雙埠 |
讀/寫頻寬(128K)MB/s | 7400 / 3000 |
隨機讀/寫(4KB)K IOPS | 1500 / 30(16KB) |
4K 隨機延遲(典型值)R/W µs | 105(4KB)/ 33(16KB) |
4K 順序延遲(典型值)R/W µs | 7(4KB)/ 12(16KB) |
典型功率(W) | 23 |
閒置功率 (W) | 5 |
閃光燈類型 | 3D企業級QLC NAND快閃記憶體 |
耐力 | 0.5 DWPD |
平均無故障時間 | 2萬小時 |
UBER | 每 1^10 位讀取 17 個扇區 |
商品保修條款 | 5年 |
DapuStor J5060 效能
檢查點
為了評估 Dapustor J5060 SSD 在 AI 訓練環境中的實際效能,我們利用了 數據和學習輸入/輸出 (DLIO) 基準測試工具。 DLIO 由阿貢國家實驗室開發,專門用於測試深度學習工作負載中的 I/O 模式。它提供了有關儲存系統如何處理檢查點、資料提取和模型訓練等挑戰的見解。下圖說明了兩個磁碟機如何處理跨越 99 個檢查點的過程。在訓練機器學習模型時,檢查點對於定期保存模型狀態至關重要,可防止在中斷或電源故障期間遺失進度。這種儲存需求需要強大的效能,特別是在持續或密集的工作負載下。
這項工作選擇的平台是運行 Ubuntu 760 LTS 的 Dell PowerEdge R22.04.02。我們使用了 2.0 年 13 月 2024 日發布的 DLIO 基準測試版本 XNUMX。我們的系統配置概述如下:
- 2 個英特爾至強金牌 6430(32 核,2.1GHz)
- 16 個 64GB DDR5-4400
- 480GB 戴爾 BOSS 固態硬碟
- 串行電纜 Gen5 JBOF
- 61.44TB Dapustor J5060
- 61.44TB Solidigm D5-P5336
為了確保我們的基準測試反映真實場景,我們基於 LLAMA 3.1 405B 模型架構進行測試。我們使用 torch.save() 實作了檢查點來捕捉模型參數、最佳化器狀態和層狀態。我們的設定模擬了一個 8-GPU 系統,實現了混合平行策略,其中 4 路張量並行和 2 路管線並行處理分佈在八個 GPU 上。此配置產生的檢查點大小為 1,636GB,代表了現代大型語言模型訓練要求。
總體而言,Dapustor J5060 在測試的初始階段表現出了良好的一致性,前 575.66 個檢查點的時間徘徊在 33 秒左右。 5060J 在驅動器第一次填滿之前能夠保持較高的性能。另一方面,Solidigm P5336 雖然最初比 J5060 慢,但隨著測試的持續,其性能表現穩定。
當 考慮到整體平均值,Dapustor J5060 的成績為 769.44秒,而 Solidigm P5336 則完成了 640.17秒。這使得 Solidigm P5336 在更快保存檢查點方面處於領先地位。
總體而言,Dapustor J5060 可以很好地處理較短的操作,但在 30 分鐘以上的持續寫入方面存在困難。同時,Solidigm P5336 是一款性能更佳的驅動器,能夠在長時間的任務中保持穩定的性能。隨著測試的繼續,Dapustor J5060 的檢查點速度變慢,這明顯表示其寫入效能較弱。
GPU直接儲存
GPU 直接儲存是一種繞過 CPU 和系統內存,實現儲存裝置和 GPU 之間直接傳輸資料的技術。在傳統的資料傳輸中,資料從記憶體讀取到 CPU 的記憶體中,然後複製到 GPU 的記憶體中。該過程涉及多次資料複製,導致延遲增加和效能降低。 CPU 是一個瓶頸,因為它需要處理儲存和 GPU 之間的資料傳輸。 GDS 透過直接允許儲存裝置與 GPU 記憶體之間傳輸資料來消除這一瓶頸。
我們系統地測試了讀取和寫入工作負載中的以下參數的每種組合:
- 塊大小:1M、128K、16K
- IODepth:128、64、32、16、8、4、1
當我們回顧我們的 GDSIO 結果時,我們檢查了 61.44TB Dapustor J5060 和 Solidigm P5336 的讀寫效能。
GDSIO 順序讀取效能
Dapustor J5060 在 4.2M 區塊大小、IO 深度為 1 和 64 的情況下實現了 128 GiB/s 的峰值讀取吞吐量。在最小區塊大小(16K)下,隨著 IO 深度的增加,效能範圍從 0.1 GiB/s 到 0.8 GiB/s。這明顯表明,為了實現最佳吞吐量,人們更傾向於使用具有較高 IO 深度的較大區塊大小。在較大的區塊尺寸下可實現峰值效能,顯示驅動器處理批次資料傳輸的效率。
相比之下,Solidigm P5336 在相同區塊大小(4.3M)下達到了類似的最大吞吐量 1 GiB/s,但在 IO 深度為 32 時更早實現了該性能,並在更高的 IO 深度下始終保持一致。這表明 Solidigm P5336 在更廣泛的 IO 深度範圍內處理大塊尺寸的效率略有提高。
為了提供更好的比較視圖,我們製作了一張比較兩種驅動器的差異圖。較綠的陰影塊顯示了 Dapustor SSD 的優勢,而移動到光譜紅色一側的塊則顯示了弱點。這裡,除了 5060 到 5336 個 IO 深度外,J128 在 4K 區塊大小方面優於 P8。然而,當 IO 深度較高且區塊大小為 16K 和 1M 時,吞吐量會下降,這表明在這些情況下效率較低。
在順序讀取延遲比較中,Solidigm P5336 在幾乎所有區塊大小和 IO 深度上始終保持比 Dapustor J5060 更低的延遲。在 16K 區塊大小下,隨著隊列深度的增加,差距變得更加明顯:J5060 在深度 2,329 時達到峰值 128 μs,而 P5336 保持在較低水平,為 1,365 μs。在 128K 時,Solidigm 再次在大多數深度上領先,但在深度 4,080 的高負載下除外(J5060 上為 5539 μs,而 P5336 上為 128μs)。在 1M 塊大小下,兩個驅動器的延遲都如預期般增加,但 P5336 的控制效果略好一些,在最高隊列深度下為 29,138 μs,而 P29,512 為 XNUMX μs。
GDSIO 順序寫入效能
Dapustor J5060 在所有 IO 深度上對 2.7K 和 2.8M 區塊大小顯示出 128 到 1 GiB/s 的一致寫入吞吐量(128K、1 IO 深度大小除外,其吞吐量為 2.2GiB/s)。對於 16K 區塊大小,效能範圍從 0.5 GiB/s 到 1.4 GiB/s,取決於 IO 深度,在較高的 IO 深度下峰值為 1.4 GiB/s。
相比之下,Solidigm P5336 在 128K 和 1M 區塊大小期間的表現較好,峰值達到 3.2GiB/s。對於較小的塊大小(16K),Solidigm P5336 也表現出更高的性能,在 IO 深度為 1.4 到 16 時達到 64 GiB/s 的峰值。這表明 Solidigm P5336 在寫入作業期間使用較小的區塊大小時效率略高。
從差異角度來看,我們發現 Dapustor J5060 與 Solidigm P5336 的寫入效能之間存在較大差距。我們的吞吐量比較表明,J5060 在大多數方面都落後於 P5336,特別是在所有 IO 深度上的大塊大小(1M)方面。在 0.5 個 IO 深度時吞吐量下降達到 -4 GiB/s。儘管 128K 區塊大小在更高的 IO 深度下會提高效能,但這些提升不足以抵消整體效能不佳的影響。
當比較 Dapustor J5060 和 Solidigm P5336 之間的順序寫入延遲時,兩個驅動器在 16K 等較小的塊大小下表現出類似的行為,其中 Solidigm 在較低的 IO 深度下略有優勢,而 Dapustor 在較高的深度(64 和 128)下縮小了差距。在 128K 區塊大小下,Solidigm 再次在淺隊列深度下領先,但隨著 IO 深度的增加,Dapustor 始終提供更低的延遲,表明在負載下具有更好的擴展性。然而,在 1M 區塊大小的情況下,Solidigm 在所有 IO 深度上都保持了明顯的延遲優勢,在繁重的順序寫入工作負載下顯示出明顯更快的反應時間。總體而言,Solidigm 的表現更加穩定,而 Dapustor 的優勢在中型區塊和更深的隊列中更為明顯。
FIO 工作負載摘要
靈活 I/O 測試器 (FIO) 是一種業界標準基準測試工具,用於測量各種工作負載場景下儲存設備的效能。 FIO 因其多功能性和可靠性而備受信賴,它模擬真實世界的條件,提供有關 SSD 功能和性能限制的見解。 StorageReview 利用 FIO 提供全面的分析,測量工作負載模式、區塊大小和佇列深度的吞吐量、延遲和 IOPS。
已套用的工作負載:
- 128K 順序讀寫
- 64K 隨機讀寫
- 16K 隨機讀寫
- 4K 隨機讀寫
這些工作負載代表了廣泛的企業用例,包括大型順序傳輸、資料庫典型的密集隨機 I/O 以及虛擬化環境中常見的小塊隨機存取。
此效能部分總結了 Dapustor J5060 在關鍵合成工作負載下的效能,包括不同區塊大小和佇列深度下的順序和隨機讀取/寫入操作。指標直接從解析的 fio 輸出中提取,包括頻寬(MB/s)、IOPS 和高達 99.9999% 的延遲百分位數,提供對負載下的吞吐量和尾部行為的洞察。
128K 順序讀寫效能
雲端硬碟 | 線程/IO深度 | 頻寬(MB/秒) | IOPS | 99.0% | 99.9% | 99.99% |
---|---|---|---|---|---|---|
Dapustor J5060 | 1T/64Q | 7,482 | 57,081 | 1.66毫秒 | 2.02毫秒 | 2.83毫秒 |
固力P5336 | 1T/64Q | 7,479 | 57,057 | 1.51毫秒 | 1.66毫秒 | 1.81毫秒 |
Dapustor J5060 | 1T/16Q | 3,023 | 23,063 | 0.69毫秒 | 0.69毫秒 | 0.70毫秒 |
固力P5336 | 1T/16Q | 3,364 | 25,669 | 2.67毫秒 | 3.48毫秒 | 4.42毫秒 |
Dapustor J5060 在 128K 時提供了令人印象深刻的順序讀取效能,即使在更高的百分位數下也能達到 7.48GB/s 的嚴格延遲控制。與 Solidigm P5336 相比,J5060 的吞吐量基本上相同(7.48GB/s 與 7.47GB/s)。然而,Solidigm 在延遲一致性方面保持了略微的優勢,顯示出略低的尾部延遲。
在 128K 順序寫入(QD16)時,J5060 實現了 3,023MB/s 的穩定性能,且延遲非常低。然而,Solidigm P5336 略勝一籌,達到了 3,364MB/s,儘管延遲明顯較高,尤其是在 99.99% 百分位數(4.42ms 對比 Dapustor 的極低 0.70ms)。這表明 J5060 是延遲敏感的順序寫入場景的更強有力的候選者。
64K隨機讀寫效能
雲端硬碟 | IO深度 | 頻寬(MB/秒) | IOPS | 99.0% | 99.9% | 99.99% |
---|---|---|---|---|---|---|
Dapustor J5060 | 8T/32Q | 7,475 | 114,058 | 20.05毫秒 | 21.89毫秒 | 25.82毫秒 |
固力P5336 | 8T/32Q | 7,472 | 114,014 | 21.36毫秒 | 21.89毫秒 | 22.68毫秒 |
Dapustor J5060 | 8T/32Q | 534 | 8,151 | 574.6毫秒 | 708.8毫秒 | 742.39毫秒 |
固力P5336 | 8T/32Q | 857 | 13,070 | 196.1毫秒 | 208.6毫秒 | 221.24毫秒 |
在 64K 隨機讀取(QD256)中,Dapustor J5060 表現出色,吞吐量接近 7.4GB/s,延遲控制良好。 Solidigm 的結果非常接近(7.47GB/s),最大百分位數延遲略好。這兩款驅動器均表現出色,實際差異很小。
J64 在 5060K 隨機寫入效能方面明顯有困難,吞吐量急遽下降至 534MB/s,延遲顯著增加(742.39% 時為 99.99ms)。相比之下,Solidigm P5336 的效能明顯優於 J5060,速度達到 857MB/s,且延遲顯著降低(相同百分位數為 221.24ms),使其更適合對延遲和持續寫入吞吐量敏感的應用程式。
16K隨機讀寫效能
雲端硬碟 | IO深度 | 頻寬(MB/秒) | IOPS | 99.0% | 99.9% | 99.99% |
---|---|---|---|---|---|---|
Dapustor J5060 | 8T/32Q | 7,430 | 453,461 | 5.28毫秒 | 6.39毫秒 | 8.16毫秒 |
固力P5336 | 8T/32Q | 7,431 | 453,527 | 5.01毫秒 | 5.21毫秒 | 5.47毫秒 |
Dapustor J5060 | 8T/32Q | 531 | 32,404 | 143.65毫秒 | 149.94毫秒 | 181.40毫秒 |
固力P5336 | 8T/32Q | 847 | 51,724 | 57.9毫秒 | 65.8毫秒 | 71.8毫秒 |
在 16K 隨機讀取工作負載(QD256)下,Dapustor 以 453K IOPS 和可控的延遲取得了出色的效果。 Solidigm P5336 基本上反映了這種效能,在延遲方面略勝 Dapustor(5.47ms 對比 8.16% 時的 99.99ms),這表明 Solidigm 在大量隨機讀取場景中的延遲一致性略好。
Dapustor SSD 的 16K 隨機寫入效能大幅下降至 32K IOPS,延遲增加至 181.4ms(99.99%)。 Solidigm 再次顯著超越了 Dapustor 硬碟,提供了 51.7K IOPS 和顯著改善的延遲曲線(71.8% 時為 99.99ms),凸顯了 Solidigm 在延遲敏感的隨機寫入工作負載方面的優勢。
4K隨機讀寫效能
雲端硬碟 | IO深度 | 頻寬(MB/秒) | IOPS | 99.0% | 99.9% | 99.99% |
---|---|---|---|---|---|---|
Dapustor J5060 | 8T/32Q | 6,941 | 1,694,464 | 1.43毫秒 | 1.58毫秒 | 1.79毫秒 |
固力P5336 | 8T/32Q | 3,994 | 975,108 | 2.31毫秒 | 2.41毫秒 | 2.64毫秒 |
Dapustor J5060 | 8T/32Q | 131 | 31,923 | 143.65毫秒 | 145.75毫秒 | 179.31毫秒 |
固力P5336 | 8T/32Q | 197 | 48,030 | 58.5毫秒 | 64.2毫秒 | 68.7毫秒 |
4K 隨機讀取場景是 Dapustor J5060 的一大亮點,在 QD1.69 時峰值效能超過 256 萬 IOPS,同時延遲也非常低。相比之下,Solidigm P5336 明顯落後,僅管理 975K IOPS,並且在所有百分位數下的延遲都明顯更高。對於密集的小塊隨機讀取,Dapustor J5060 顯然是最佳選擇。
不幸的是,J5060 的 4K 隨機寫入效能嚴重下降,僅產生 131MB/s 和 31.9K IOPS,且延遲較高(179.31% 時為 99.99ms)。 Solidigm SSD 可以更輕鬆地處理這種情況,提供 197MB/s、48K IOPS 和顯著更低的尾部延遲(68.7% 時為 99.99ms)。儘管 Solidigm 也經歷了延遲峰值,但對於要求苛刻的 4K 隨機寫入工作負載來說,它仍然是更強大的驅動器。
結論
最終,DapuStor J5060 是一款高容量企業級 QLC SSD,專為讀取密集型工作負載而設計,其中儲存密度和每 TB 成本優先於持續寫入效能。其容量高達 61.44TB 並配備 PCIe Gen4 接口,最適合依賴大量連續讀取和不頻繁寫入的內容交付網絡、雲檔案或 AI 推理系統等環境。
為了實現這一目標,我們對 J5060 進行了各種測試,以了解其在實踐中的表現,特別是與 Solidigm P5336 相比的表現。 J5060 具有穩定的順序讀取性能並提供高密度存儲,在讀取密集型環境中表現良好。在某些情況下,特別是在較低的 IO 深度和較大的塊尺寸下,J5060 的表現優於 Solidigm P5336。這些場景中的延遲和吞吐量表明它是為優先考慮大塊讀取效率而構建的。
然而,當考慮寫入活動時,效能會受到嚴重影響。在幾乎所有寫入指標(包括 IOPS、延遲和吞吐量)上,J5060 的表現始終不佳。這種弱點在高 IO 深度和大塊大小的順序寫入壓力下最為明顯,其中延遲相對較高且吞吐量趨於平穩。即使在與 AI 相關的檢查點工作負載期間,J5060 也開始表現強勁,但效能很快下降,這表明持續寫入一致性存在問題。
對於讀取密集型、容量驅動型需求的組織來說,J5060 提供了明顯的價值,但它的限制使其在混合或寫入密集型工作負載下更難銷售。
參與 StorageReview
電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱