存儲評論網

美光 9550 MAX 評測:兼顧 AI、DB 和分析的均衡效能

企業  ◇  SSD

2024 年 7 月,美光宣布 9550 NVMe SSD系列,這是一款專為下一波企業儲存部署而打造的第五代平台。當時,我們報導了此次發布,並重點介紹了兩個產品層級:面向讀取密集型環境的 PRO 和麵向混合用途工作負載的 MAX。美光科技隨後向我們提供了 9550 MAX 的樣品,讓我們能夠對該系列中這款更高耐用性產品進行全面的企業實驗室測試。

美光 9550 Max 12.8 TB 前端。

9550 MAX 專為讀寫平衡的混合用途工作負載而設計,其耐用性和持續性能與原始吞吐量同等重要。這使其成為資料庫、分析、AI/ML 訓練流程以及涉及高持續交易率的金融應用的理想選擇。

容量範圍從​​ 3.2TB 到 25.6TB,涵蓋從小型應用磁碟機到高密度儲存節點的高容量整合等各種部署場景。 9550 MAX 提供 U.2 和 E3.S 兩種規格,為企業從現有的 2.5 吋基礎設施過渡到下一代 EDSFF 平台提供靈活性。

與專注於讀取效能但耐用性較低的 PRO 系列相比,MAX 可提供高達每日三次的全碟寫入 (DWPD),使其成為寫入密集型或平衡型工作負載環境的理想之選。 Pro 和 Max 系列均具備 PCIe Gen5 效能、NVMe 2.0 和 (OCP) 2.0-2.5 相容性;9550 系列 SSD 以其卓越的速度和可靠性脫穎而出,專為大規模應用而設計。

位於 美光 7600 系列 9550 系列 SSD 以卓越的延遲和能源效率服務於主流資料中心工作負載,為需要在負載下實現最大一致性和吞吐量的資料密集型環境提供更高的耐用性、更廣泛的容量選擇和卓越的持續性能

美光 9550 MAX 規格

下表概述了美光 9550 MAX 系列 SSD,重點介紹了其 U.2 和 E3.S 型號的外形尺寸、性能指標、耐用性等級和容量選項。

美光 9550 MAX 規格(U.2 / E3.S)
應用場景 混合用途(每天 3 次驅動器寫入)
介面/協定 PCIe Gen5 x4,NVMe v2.0b
NAND閃存 美光 232 層 3D TLC NAND
OCP 合規性 OCP 2.0 (r21)
可靠性 MTTF:2.0萬小時 @ 0–55°C;2.5萬小時 @ 0–50°C | UBER < 1 個扇區/1017 讀取位數 | 5 年保修
功率(平均 RMS) ≤ 18 W 順序讀取;≤ 18 W 順序寫入
工作溫度 0–70°C
容量和性能(9550 MAX)
容量 順序。 讀取(MB/秒) 順序。 寫入(MB/秒) 隨機讀取(K IOPS) 隨機寫入(K IOPS) 70/30 讀/寫(千 IOPS)
3.2TB 14,000 10,000 3,000 540 640
6.4TB 14,000 10,000 3,300 640 720
12.8TB 14,000 10,000 3,300 820 1,000
25.6TB 14,000 10,000 3,300 1,200 1,300
典型延遲(µs)
閱讀 60
15
耐久度(寫入的總位元組數,TB)
容量 RND TBW 序號 筆記
3.2TB 17,520 37,200 最大(每日 3 次 DWPD)
6.4TB 35,040 74,200 最大(每日 3 次 DWPD)
12.8TB 70,080 143,100 最大(每日 3 次 DWPD)
25.6TB 140,160 282,600 最大(每日 3 次 DWPD)

Micron 9550 MAX 設計與建造

美光科技將 9550 MAX 定位為混合用途企業級 SSD,旨在實現 3 DWPD 的均衡讀取/寫入工作負載。它配備 PCIe Gen5 x4 接口,支援 NVMe 2.0b 協議,並採用美光科技的 232 層 3D TLC NAND 技術,以強調在持續負載下實現一致的延遲。

從物理上講,該硬碟系列涵蓋 U.2 和 E3.S 兩種規格,使運營商能夠靈活地將其放入當今的 2.5 英寸 NVMe 托架中,或遷移到更高密度的 EDSFF 部署中,而無需更換平台。符合 OCP 2.0 和 2.5 標準進一步增強了這種多功能性,使 9550 MAX 能夠滿足現代超大規模和企業伺服器中常見的機械、散熱和管理要求。

美光 9550 Max 後部。

從功耗和散熱角度來看,美光科技規定連續讀寫作業的平均 RMS ≤18 W,完全符合 U.2 和 E3.S 系統典型的前置散熱方案,並有助於在長時間混合工作負載下保持效能一致性。額定工作溫度為 0–70 °C,為管理員在各種機殼氣流設計中提供舒適的散熱空間。

可靠性目標反映了 MAX 系列對耐用性的重視:MTTF 高達 2.5 萬小時(較高環境下為 2.0 萬小時),UBER < 1e-17,並提供五年保固。容量範圍涵蓋 3.2 TB 至 25.6 TB,美光科技公佈了較低的典型延遲資料(讀取 60 µs / 寫入 15 µs),以及 Gen5 吞吐量額定值(讀取高達 14 GB/s / 寫入高達 10 GB/s)和可觀的混合 IO 數量。在實際的混合用途部署中,這些特性比峰值規格更為重要。

美光 9550 MAX 性能

路測平台

我們選擇執行 Ubuntu 22.04.02 LTS 的 Dell PowerEdge R760 作為本次評測所有工作負載的測試平台。配備 串行電纜的 Gen5 JBOF, 它與 U.2、E1.S、E3.S 和 M.2 SSD 廣泛相容。我們的測試系統配置概述如下。

  • 2 個英特爾至強金牌 6430(32 核,2.1GHz)
  • 16 個 64GB DDR5-4400
  • 480GB 戴爾 BOSS 固態硬碟
  • 串行電纜 Gen5 JBOF
驅動器比較

DLIO 檢查點基準

為了評估 SSD 在 AI 訓練環境中的實際效能,我們使用了資料和學習輸入/輸出 (DLIO) 基準測試工具。 DLIO 由阿貢國家實驗室開發,專門用於測試深度學習工作負載中的 I/O 模式。它能夠深入了解儲存系統如何應對檢查點設定、資料提取和模型訓練等挑戰。下圖展示了兩款硬碟如何在 36 個檢查點之間處理整個過程。在訓練機器學習模型時,檢查點對於定期保存模型狀態至關重要,可防止在中斷或斷電期間失去進度。這種儲存需求需要強大的效能,尤其是在持續或密集的工作負載下。我們使用了 2024 年 8 月 13 日發布的 DLIO 基準測試 2.0 版。

為了確保基準測試能夠反映真實場景,我們基於 LLAMA 3.1 405B 模型架構進行測試。我們使用 torch.save() 實作檢查點,以擷取模型參數、最佳化器狀態和層狀態。我們的設定模擬了一個八 GPU 系統,並實作了一個混合平行策略,將四路張量並行和雙向管線並行處理分佈在八個 GPU 上。此配置產生的檢查點大小為 1,636 GB,反映了訓練現代大型語言模型的需求。

在本次基準測試中,美光 9550 MAX 12.8TB 脫穎而出,成為當之無愧的領導者。在完整的 18 個檢查點運行過程中,它保持了最低的平均完成時間,範圍從 457 秒到 575 秒。該硬碟表現出色,檢查點之間的差異極小,這表明其韌體設計平衡,並針對混合讀取/寫入工作負載進行了最佳化。

緊隨其後的是美光 7600 MAX 6.4TB,其運行時間在 459 秒至 586 秒之間。雖然其平均速度仍然具有競爭力,但在測試點 4 和 7 之間出現了短暫的性能波動,直到測試結束時才趨於穩定。儘管如此,它仍然穩居頂級水平,在持續運行 AI 和 HPC 工作負載時表現出卓越的效率。

美光 9550 7.68TB 的表現略遜於兩款旗艦型號,成績範圍從 458 秒到 582 秒。它保持了穩定的擴展性,並與高階 MAX 硬碟保持競爭力,進一步鞏固了美光 9550 平台的領先優勢。

在測試的其他企業級 SSD 中,Solidigm PS1010、SanDisk SN861 和 Kingston DC3000ME 佔據了中等水平,大多數檢查點的完成時間都在 450 秒到 610 秒之間。 Pascari X200P 的性能穩定性最差,在運行中期達到了 690 多秒,直到接近尾聲才穩定下來。

在本次平均測試中,Solidigm PS1010 7.68TB 以最快的平均完成時間領先各組,三次測試的平均完成時間範圍從 458 秒到 564 秒不等。該硬碟表現出了極佳的一致性,在運行之間保持了較低的差異,並在混合 I/O 工作負載下展現了強大的效率。

SanDisk SN861 7.68TB 緊隨其後,其結果幾乎相同,平均值在 461 秒到 553 秒之間,證實了其能夠以最小的退化提供可靠的檢查點性能。

緊隨其後的是美光 9550 7.68TB,在相同測試中耗時 461 秒到 559 秒之間。其性能依然非常有競爭力,略微落後於領先者,同時在所有迭代中保持了穩定的擴展性和穩定的吞吐量。

美光 9550 MAX 12.8TB 和美光 7600 MAX 6.4TB 排名第五,平均得分略高,為 462–555 秒和 464–567 秒。兩者在一段時間內都保持了一致的表現,但落後於容量較小的美光科技和兩款領先的硬碟 固晶 和 SanDisk。

在該系列的其他產品中,金士頓 DC3000ME 和 帕斯卡里 X200P 的整體耗時最長,平均分別為 580 秒和 660 秒。這些結果反映出在持續檢查點條件下,效能差距更大,尤其是在需要頻繁寫入持久性儲存的工作負載下。

FIO性能基準

為了衡量每個 SSD 在常見產業指標上的儲存效能,我們利用了 FIO。每個 SSD 都經過相同的測試流程,其中包括一個預處理步驟:使用順序寫入工作負載對硬碟進行兩次全碟填充,然後進行穩態效能測量。隨著每種被測工作負載類型的變化,我們會根據新的傳輸大小再次進行預處理填充。

在本節中,我們將重點放在以下 FIO 基準:

  • 128K 連續
  • 64K隨機
  • 16K隨機
  • 4K隨機

128K 順序寫入(IODepth 16/NumJobs 1)

進入128K順序寫入測試,結果與我們在預處理過程中觀察到的結果幾乎相同。美光9550 Max(12.8TB)再次遙遙領先,保持10,957.9MB/s的速度,穩居榜首。金士頓DC3000ME(7.68TB)以8,477.4MB/s的速度緊隨其後,Pascari X200P(7.68TB)則以8,369.7MB/s的速度緊隨其後。

緊隨其後的是 Solidigm PS1010(7,126.5MB/s)和 SanDisk DC SN861(7,116.5MB/s),而 Micron 7600 Max(6.4TB)以 6,960.6MB/s 的速度位居榜末。

128K 順序寫入延遲 (IODepth 16 / NumJobs 1)

談到延遲,128K 順序寫入測試在 IODepth 為 16 的情況下運行,並執行單一作業,而預處理時佇列深度更大,為 256。如預期的那樣,所有硬碟的延遲均顯著下降。美光 9550 Max (12.8TB) 再次以 0.18 毫秒的最低延遲領先,展現了其以最小延遲維持最高吞吐量的能力。

金士頓 DC3000ME(7.68TB)緊隨其後,為 0.24ms;Pascari X200P(7.68TB)緊隨其後,為 0.24ms。同時,Solidigm PS1010(0.28ms)和 SanDisk DC SN861(0.28ms)的結果也相近,而美光 7600 Max(6.4TB)則以 0.29ms 的成績墊底。

128K 順序讀取(IODepth 64 / NumJobs 1)

轉到讀取測試,128K 順序讀取測試中,各競品 SSD 的成績更加接近。 Pascari X200P(7.68TB)以 14,242.1MB/s 的讀取速度奪得桂冠,略高於 Solidigm PS1010(7.68TB)的 14,163.3MB/s,而 Micron 9550 Max(12.8TB)則以 14,047.5 的速度讀取後讀取速度。這三款 SSD 的持續順序讀取吞吐量在實際應用上差距很小。

金士頓 DC3000ME(7.68TB)的速度略低於前三名,為 13,513.8MB/s,而閃迪 DC SN861(7.68TB)的速度為 12,631.2MB/s。美光 7600 Max(6.4TB)的速度較低,為 11,240.5MB/s,是該組中唯一一款速度低於 12GB/s 門檻的硬碟。

128K 順序讀取延遲(IODepth 64 / NumJobs 1)

延遲方面,128K 順序讀取測試 (IODepth 64 / NumJobs 1) 凸顯了頂級產品之間的激烈競爭。 Pascari X200P (7.68TB) 以 0.56ms 領先,Solidigm PS1010 (0.56ms) 和美光 9550 Max (12.8TB) 的延遲均為 0.57ms,兩者幾乎旗鼓相當。這三款硬碟的性能實際上旗鼓相當,這與我們在吞吐量方面看到的差距不大相符。

緊隨其後的是金士頓 DC3000ME(7.68TB),時間為 0.59ms;閃迪 DC SN861(7.68TB)則為 0.63ms;美光 7600 Max(6.4TB)則以 0.71ms 的成績墊底,這與其較低的順序讀取帶寬一致。

64K 隨機寫入

在 64K 隨機寫入測試中,美光 9550 Max (12.8TB) 展現出廣泛的效能範圍,從最低約 2.45GB/s 到最高 10.6GB/s,平均速度為 7.34GB/s。這不僅使其成為性能最佳的硬碟,也是唯一一款在更高隊列深度下始終超過 10GB/s 的硬碟。美光 7600 Max (6.4TB) 表現出了穩定的一致性,但性能上限較低,從 2.39GB/s 到 6.8GB/s 不等,平均速度為 5.16GB/s。這使得它穩居第二梯隊,落後於 9550 Max,但領先於榜單上的大多數其他競爭對手。

綜觀其他產品,金士頓 DC3000ME(7.68TB)和閃迪 DC SN861(7.68TB)的傳輸速度穩定在 4-6GB/s 範圍內,整體上具有競爭力,但無法達到美光的水平。 Solidigm PS1010(7.68TB)和 Pascari X200P(7.68TB)的傳輸速度則處於較低水平,通常集中在 2-4GB/s 範圍內,遠遠落後於這兩款美光硬碟。

64K隨機寫入延遲

在延遲方面,美光 9550 Max(12.8TB)的表現最穩定,平均延遲僅 0.30 毫秒,即使在隊列深度較大的情況下,峰值也低於 1.71 毫秒。美光 7600 Max(6.4TB)緊隨其後,平均延遲略高,為 0.41 毫秒,最大值為 2.3 毫秒,在負載下仍能保持合理的控制。金士頓 DC3000ME 和閃迪 DC SN861 的表現處於中等水平,延遲通常在 0.05 毫秒到 2.7 毫秒之間。同時,Pascari X200P 和 Solidigm PS1010 的波動最為明顯,在隊列深度較大的情況下分別達到 4.1 毫秒和 6.0 毫秒。

64K 隨機讀取

在 64K 隨機讀取測試中,兩款美光硬碟均表現出色,平均速度非常接近。美光 9550 Max (12.8TB) 的速度範圍從最低的 0.49GB/s 到最高的 13.7GB/s,平均速度為 6.96GB/s。美光 7600 Max (6.4TB) 的表現也類似,最低速度略高,為 0.61GB/s,最高速度為 11.0GB/s,平均速度為 6.94GB/s。

從更廣泛的圖表中,我們可以看到 Solidigm PS1010 和 Pascari X200P 等硬碟能夠在更高的隊列深度下達到 13-14GB/s 的範圍,這使得它們的峰值吞吐量略高於美光。金士頓 DC3000ME 在 12-13GB/s 的範圍內緊隨其後,而 SanDisk DC SN861 則略低,穩定在 12.3GB/s 左右。

64K隨機讀取延遲

在 64K 隨機讀取測試中,美光 9550 Max(12.8TB)保持了強勁的延遲表現,平均延遲為 0.25 毫秒,最低延遲為 0.12 毫秒,在高負載下最高可達 1.14 毫秒。美光 7600 Max(6.4TB)的數據非常相似,平均延遲為 0.26 毫秒,最低延遲為 0.10 毫秒,但最高延遲略有上升,達到 1.42 毫秒。兩款美光產品整體延遲表現穩定,在大部分測試過程中與其他產品保持緊密的比較。

綜觀圖表,Solidigm PS1010 和 Pascari X200P 的突發延遲略高,一般在 0.1 到 1.2 毫秒之間。同時,金士頓 DC3000ME 和閃迪 DC SN861 緊跟在後,峰值略高於 1.2 毫秒。在所有測試的硬碟中,美光科技保持了競爭力和穩定性,與其他頂級產品之間僅存在細微的差異。

16K 順序寫入

在 16K 順序寫入測試中,美光 9550 Max(12.8TB)再次佔據主導地位,吞吐量範圍從最低的 0.85GB/s 到最高的 10.7GB/s,平均速度為 7.75GB/s。美光 7600 Max(6.4TB)緊隨其後,性能範圍較窄,從 0.84GB/s 到 6.8GB/s,平均速度為 5.63GB/s,這使其遠遠落後於 9550,但仍領先於大多數其他硬碟。

從更廣泛的圖表來看,金士頓 DC3000ME 和 Pascari X200P 在更高的隊列深度下,速度集中在 6-8GB/s 範圍內,互有勝負,但總體上落後於 9550 Max。美光 7600 Max 也處於這一水平,但更傾向於較低水平。 Solidigm PS1010 的速度略低,在 5-6GB/s 範圍內,而閃迪 DC SN861 的整體性能最差,經常低於 4GB/s,最低甚至只有 1GB/s。

16K 順序寫入延遲

在 16K 順序寫入延遲測試中,美光 9550 Max(12.8TB)再次展現出出色的反應能力,平均延遲為 0.12 毫秒,最低延遲為 0.018 毫秒,在高負載下峰值達到 0.75 毫秒。美光 7600 Max(6.4TB)緊隨其後,平均延遲略高,為 0.18 毫秒,最低延遲為 0.018 毫秒,峰值達到 1.15 毫秒。

從圖表來看,金士頓 DC3000ME 和 Pascari X200P 的延遲仍處於中等水平,一般在 0.05 至 1.2 毫秒之間,而 Solidigm PS1010 的延遲則有所上升,在較高隊列深度時超過了 1.5 毫秒。 SanDisk DC SN861 的延遲總體上表現最差,在壓力下會超過 2.0 毫秒。

16K 順序讀取

在 16K 順序讀取測試中,兩款美光硬碟均表現出色,但效能略有不同。美光 9550 Max(12.8TB)的讀取速度範圍從最低的 1.02GB/s 到最高的 12.5GB/s,平均吞吐量為 5.59GB/s。美光 7600 Max(6.4TB)的起始速度與 9550 Max 類似,為 1.03GB/s,峰值為 11.0GB/s,平均速度略高,為 6.08GB/s,在全程運行的一致性方面略勝 9550 Max。

從更廣泛的圖表來看,金士頓 DC3000ME 在更高的隊列深度下飆升至領先地位,短暫突破了 12.8GB/s,而 Pascari X200P 和 Solidigm PS1010 也進入了 12GB/s 的範圍。 SanDisk DC SN861 略微落後,最高速度略低於 10GB/s。

16K 順序讀取延遲

在 16K 順序讀取測試中,美光 9550 Max(12.8TB)的延遲曲線範圍從最低的 0.015 毫秒到最高的 0.78 毫秒,平均延遲時間為 0.15 毫秒。美光 7600 Max(6.4TB)的表現略遜一籌,最低延遲為 0.014 毫秒,最高延遲為 0.71 毫秒,平均延遲為 0.13 毫秒,這使得其在效率方面略勝一籌。

從圖表來看,金士頓 DC3000ME 和 Pascari X200P 的中段表現表現相似,平均在 0.1-0.2 毫秒之間,峰值略高於 0.8 毫秒。 Solidigm PS1010 的性能略不穩定,達到了 0.75 毫秒;而 SanDisk DC SN861 的性能表現與金士頓基本一致,但隨著隊列深度的增加,其波動性也隨之增大。

16K 隨機寫入

在 16K 隨機讀取測試中,美光 9550 Max(12.8TB)的峰值略高於 900K IOPS,最低點約為 18K IOPS,平均吞吐量約為 420K IOPS。美光 7600 Max(6.4TB)表現出更高的一致性,但其最大擴展性略低,峰值約為 720K IOPS。其性能範圍從最低點的 17K IOPS 到整體約 350K IOPS。

從圖表來看,Pascari X200P 和 Solidigm PS1010 的擴展性能都令人印象深刻,Pascari 的最高性能與美光 9550 Max 相當,峰值略低於 900K IOPS,而 Solidigm 則穩定在 820-850K IOPS 範圍內。金士頓 DC3000ME 最初與領先者表現不相上下,但隨著擴展的進行,峰值達到了 620K IOPS 左右。 SanDisk DC SN861 則落後,最終效能略高於 500K IOPS。

16K隨機寫入延遲

在 16K 隨機寫入測試中,美光 9550 Max(12.8TB)再次展現出最強的延遲效能,維持在 0.015 毫秒至 0.77 毫秒之間,平均延遲為 0.13 毫秒。美光 7600 Max(6.4TB)的延遲表現略遜一籌,範圍在 0.016 毫秒至 1.26 毫秒之間,平均延遲為 0.21 毫秒。這使得 9550 Max 在壓力下表現最高效,而 7600 Max 與其他同類產品相比仍保持著競爭力。

從圖表來看,金士頓 DC3000ME 和 Pascari X200P 處於中間水平,通常運行在 0.2 至 1.5 毫秒範圍內,而閃迪 DC SN861 在高隊列深度下飆升得更厲害,突破了 1.8 毫秒。 Solidigm PS1010 在本次測試中表現最為掙扎,在最差情況下延遲遠超 3 毫秒,顯示難以在規模化情況下保持一致性。

16K 隨機讀取

在 16K 隨機讀取測試中,美光 9550 Max(12.8TB)的效能範圍廣泛,從大約 16.7K IOPS 開始,最高可達 904K IOPS,平均吞吐量為 433K IOPS。美光 7600 Max(6.4TB)的擴展性略低,但一致性極強,從 17.1K IOPS 到 720K IOPS 不等,平均吞吐量為 362K IOPS。

綜觀所有競品,Pascari X200P 與美光 9550 幾乎不相上下,峰值都達到了 900 萬 IOPS。 Solidigm PS1010 略微落後,峰值在 820 萬到 850 萬 IOPS 之間,而金士頓 DC3000ME 則更早進入穩定期,峰值約為 620 萬 IOPS。 SanDisk DC SN861 的 IOPS 略高於 500 萬 IOPS,在佇列深度較高的情況下,擴展性較弱。

16K隨機讀取延遲

在 16K 隨機讀取測試中,美光 9550 Max(12.8TB)的延遲曲線範圍從最低 0.073 毫秒到最高 0.57 毫秒,平均延遲為 0.12 毫秒。美光 7600 Max(6.4TB)的延遲曲線類似,但在大規模情況下略高,最低延遲為 0.065 毫秒,最高延遲為 0.71 毫秒,平均延遲為 0.14 毫秒。兩款美光產品均提供了穩定的低延遲響應,其中 9550 Max 在隊列深度較高時曲線較窄。

在其他產品中,Pascari X200P 和金士頓 DC3000ME 在中段性能表現強勁,在測試的大部分時間裡,其延遲時間大致在 0.1 至 0.3 毫秒之間,之後逐漸逼近最高 0.8 毫秒的範圍。 SanDisk DC SN861 和 Solidigm PS1010 的延遲變化較大,尤其是 Solidigm 的延遲時間峰值接近 0.6 至 0.65 毫秒,落後於美光和 Pascari 等領先產品。

4K 隨機寫入

在 4K 隨機寫入測試中,美光 9550 Max (12.8TB) 表現領先,提供 320 萬至 1.56 萬 IOPS 的寫入速度,在整個過程中保持穩定擴展,並在高隊列深度下保持高度一致性。美光 7600 Max (6.4TB) 緊隨其後,在超過中間範圍後表現出令人印象深刻的加速,峰值略高於 1.78 萬 IOPS,使其成為本次測試中擴展速度最快的產品。兩款美光硬碟均展現出企業級負載控制能力,進程平穩,且執行緒組合之間的波動極小。

在競爭對手中,SanDisk DC SN861 和 Kingston DC3000ME 表現良好,但落後於美光硬碟,最高速度分別接近 1.3 萬 IOPS 和 960 萬 IOPS。 Pascari X200P 表現出中等的一致性,峰值速度達到 1.6 萬 IOPS 左右,而 Solidigm PS1010 則明顯滯後,在大多數高深度場景中都無法保持 550 萬 IOPS 以上的穩定性。

4K隨機寫入延遲

在 4K 隨機寫入測試中,美光 9550 Max (12.8TB) 展現出卓越的延遲控制,最低延遲僅為 0.013 毫秒,最高延遲為 0.37 毫秒,平均延遲時間為 0.06 毫秒。美光 7600 Max (6.4TB) 緊隨其後,最低延遲為 0.012 毫秒,最高延遲為 0.29 毫秒,平均延遲時間為 0.05 毫秒。兩款硬碟均保持了穩定的低響應時間,9550 Max 在隊列深度較高時表現出略高的穩定性。

從圖表來看,金士頓 DC3000ME 和 Pascari X200P 的反應時間波動較大,通常位於 0.1-0.5 毫秒之間,最高可達 0.5 毫秒以上。 SanDisk DC SN861 的反應時間也處於類似區間,但運作中期會出現一些高峰。同時,Solidigm PS1010 的反應速度最慢,波動較大,峰值甚至超過了 0.7 毫秒,使其反應速度落後於其他同類產品。

4K 隨機讀取

在 4K 隨機讀取測試中,美光 9550 Max(12.8TB)最高可達 2.2 萬 IOPS,平均約 1.3 萬 IOPS。美光 7600 Max(6.4TB)緊隨其後,峰值略高於 2.0 萬 IOPS,平均 1.4 萬 IOPS,在高負載下表現出色。兩款美光硬碟均表現出色,在隊列深度和執行緒數方面互有勝負。

圖表顯示,SanDisk DC SN861 的峰值效能飆升至 2.5M IOPS 以上,但也表現出明顯的波動性,在高負載下會下降。 Pascari X200P 和金士頓 DC3000ME 的峰值性能均穩定在 2.0M IOPS 左右,性能表現強勁,但穩定性不如美光。 Solidigm PS1010 的中段效能表現不錯,但較早進入穩定期,最終接近 2.1M IOPS。

4K隨機讀取延遲

在 4K 隨機寫入延遲測試結果中,美光 9550 Max(12.8TB)在高負載下保持了最低的反應時間,在掃描初期平均約為 0.03-0.05 毫秒,並在峰值壓力下逐漸攀升至 0.35-0.38 毫秒。美光 7600 Max(6.4TB)緊隨其後,差異略大,但仍具有競爭力,在最大吞吐量下最高略低於 0.30 毫秒。

相較之下,SanDisk DC SN861 和 Pascari X200P 的延遲峰值隨著吞吐量的增加而急劇上升,在最高隊列深度下,SanDisk 的延遲飆升至 0.40 毫秒以上,而 Pascari 的延遲則超過 0.50 毫秒。金士頓 DC3000ME 落後於這兩款產品,峰值略高於 0.50 毫秒,但在較低工作負載下保持相對穩定。 Solidigm PS1010 的延遲最為嚴重,早期的爬升幅度已達到 0.10 毫秒以上,峰值達到 0.73 毫秒,反映出在較大的隨機寫入壓力下存在不穩定性。

GPU直接儲存

我們在這個測試台上進行的測試之一是 Magnum IO GPU 直接儲存 (GDS) 測試。 GDS 是 NVIDIA 開發的功能,可讓 GPU 在存取儲存在 NVMe 磁碟機或其他高速儲存裝置上的資料時繞過 CPU。 GDS 不再透過 CPU 和系統記憶體來路由數據,而是實現了 GPU 和儲存設備之間的直接通信,從而顯著減少了延遲並提高了數據吞吐量。

GPU 直接儲存的工作原理

傳統上,當 GPU 處理儲存在 NVMe 磁碟機上的資料時,資料必須先經過 CPU 和系統內存,才能到達 GPU。由於 CPU 充當了中間環節,這個過程會造成瓶頸,增加延遲並消耗寶貴的系統資源。 GPU 直接儲存技術使 GPU 能夠透過 PCIe 總線直接從儲存裝置存取數據,從而消除了這種低效率。這種直接路徑減少了資料移動開銷,從而實現了更快、更有效率的資料傳輸。

人工智慧工作負載,尤其是涉及深度學習的工作負載,是高度資料密集的。訓練大型神經網路需要處理 TB 級的數據,資料傳輸中的任何延遲都可能導致 GPU 利用率不足和訓練時間更長。 GPU 直接儲存透過確保資料盡快傳輸到 GPU、最大限度地減少空閒時間並最大限度地提高運算效率來解決這一挑戰。

此外,GDS 對於涉及串流大型資料集的工作負載特別有利,例如視訊處理、自然語言處理或即時推理。透過減少對 CPU 的依賴,GDS 可以加速資料移動並釋放 CPU 資源用於其他任務,從而進一步增強整體系統效能。

GDSIO 順序讀取吞吐量

在我們的 GDSIO 順序讀取測試中,從 16K 的小塊傳輸開始,美光 9550 的最大吞吐量在低佇列深度下約為 0.5 GiB/s,並在 QD128 時逐漸提升至約 1.9 GiB/s。遷移到 128K 區塊大小後,效能顯著提升,在 QD1 時達到 1.4 GiB/s,在 QD64 時達到峰值約 5.3 GiB/s。–128。在 1M 塊測試中,該驅動器表現出最強的性能,從淺隊列的 2.0 GiB/s 擴展到 QD128 的 6.1 GiB/s,在所有深度上都表現出持續的增長和穩定的效率。

與美光 7600 Max 相比,9550 Max 的運行軌跡相似,峰值吞吐量略高。 7600 Max 的 16K 測試開始時速度約為 0.5 GiB/s,最高速度接近 1.9 GiB/s,在小塊工作負載下幾乎與 9550 Max 相同。在 128K 測試中,它的初始速度較快,為 2.2 GiB/s,但峰值約為 5.0 GiB/s,而其 1M 區塊測試結果約為 5.6 GiB/s。總體而言,這兩款硬碟都提供了可預測的擴展性和強大的順序性能,9550 Max 在更高的隊列深度和更大的區塊大小下保持著略微但持續的優勢。

縱觀測試的其他企業驅動器,包括 帕斯卡里 X200P,金士頓DC3000ME, 固晶 PS1010 和 SanDisk DC SN861 的吞吐量結果通常在 5.0 GiB/s 到 6.1 GiB/s 之間。所有型號的吞吐量範圍都相對較窄,這表明當前企業級 SSD 處理 GPU 直接工作負載的效率很高。在這一組中,美光 SSD 始終名列前茅,9550 Max 在更高的隊列深度下保持著微弱的優勢。相比之下,其他型號則緊隨其後,速度差距在十分之幾 GiB/s 以內,具體取決於工作負載強度。

GDSIO 順序讀取延遲

在順序讀取延遲測試中,兩款美光硬碟在所有區塊大小和隊列深度下均展現出緊密一致的反應時間。美光 9550 Max 在較小區塊大小下一開始就表現出非常低的延遲,在 QD1 下 16K 傳輸的延遲約為 31µs,並在 QD128 下逐漸增加到約 1.0ms。在 128K 區塊大小下,延遲範圍從 86µs 到 3.0ms,而 1M 工作負載的延遲則從淺隊列下的 482µs 上升到 QD128 下的 20.6ms。

美光 7600 Max 也表現出類似的模式,最小區塊的延遲開始時略快,QD1 為 27µs,到 QD128 時約為 1.0ms。在 128K 區塊時,延遲範圍為 54µs 至 3.1ms;在 1M 區塊時,延遲範圍為 QD1 的 391µs 至 QD128 的 22.3ms。

縱觀整個測試組,所有硬碟在中小型塊大小下均保持接近平價,而隨著隊列深度的增加,在 1M 工作負載下自然攀升。美光 9550 Max 和 7600 Max 始終保持緊密分組,反映出與同類產品相比,延遲擴展穩定且變化極小。 帕斯卡里 X200P、金士頓 DC3000ME 和 固晶 PS1010。

GDSIO 順序寫入吞吐量

在 GDSIO 順序寫入測試中,美光 9550 Max 在所有工作負載下均保持了持續強勁的吞吐量。在較小的 16K 區塊大小下,效能起始於 0.5 GiB/s 左右,到 QD32 時攀升至約 1.5 GiB/s,然後在最高隊列深度時略有下降。在 128K 區塊大小下,吞吐量顯著提升,從 QD1 時的 2.3 GiB/s 擴展到 QD32 時的峰值 5.3 GiB/s–64。1M 區塊的結果保持在相同的高性能範圍內,從 4.7 GiB/s 附近開始,並在中等隊列深度下維持在 5.0 GiB/s 至 5.4 GiB/s 之間,然後在 QD128 處略有下降。

美光 7600 Max 的曲線幾乎相同,在 16K 時從 0.5 GiB/s 開始,在較小傳輸時達到 1.5 GiB/s 的最高速度。在 128K 時,其速度從 2.2 GiB/s 穩定攀升至 5.2 GiB/s,而 1M 區塊工作負載在中等佇列深度範圍內將吞吐量保持在 4.1 GiB/s 至 5.4 GiB/s 之間。兩款硬碟均表現出極佳的一致性,即使佇列深度增加,效能變化也極小,這凸顯了美光在 GPU 直接工作負載下韌體調優的高效性。

從更廣泛的資料集來看,所有測試的企業級硬碟在尖峰負載下的整體吞吐量都收斂在 4.0-5.4 GiB/s 的窄帶範圍內。 Pascari X200P 和 Micron 7600 Max 等硬碟的吞吐量徘徊在較高範圍附近,而金士頓 DC3000ME、Solidigm PS1010 和 SanDisk DC SN861 等其他硬碟則緊隨其後。

GDSIO 順序寫入延遲

在順序寫入延遲測試中,兩款美光硬碟均展現出穩定、可預測的反應時間,且反應時間與佇列深度和區塊大小呈線性關係。美光 9550 Max 在較小傳輸量下表現出與 7600 Max 幾乎相同的低延遲性能,在隊列深度 1 下,16K 塊的延遲為 30µs,在隊列深度 128 下則降至 2.7ms。在 128K 區塊的情況下,延遲從 52µs 逐漸增加到 3.2ms,而 1M 區塊工作負載在隊列深度 1 下延遲為 207µs,在隊列深度最大時達到 40ms 左右。

美光 7600 Max 的表現也類似,只有細微的變化。它在 QD1 下記錄到 16K 區塊的延遲為 30µs,在 QD128 下最高達到 1.5ms。在 128K 下,延遲範圍在 54µs 到 3.0ms 之間;對於 1M 傳輸,延遲從 QD1 下的 237µs 攀升至 QD128 下的 40.7ms。

在整個組別比較中,所有硬碟都表現出一致的隊列深度增加行為,並保持了類似的擴展模式。美光硬碟與 帕斯卡里 X200P 和 Kingston DC3000ME 在大部分範圍內都表現出色,並且在較小的區塊大小下都表現出出色的低延遲特性,同時在更繁重的連續寫入條件下保持可預測的增加。

結語

美光 9550 Max 延續了美光在企業級固態硬碟 (SSD) 領域的強勁發展勢頭,在耐用性、吞吐量和效率之間實現了完美平衡,滿足當前數據密集型工作負載的需求。它專為混合使用環境而設計,在順序和隨機操作下均能保持高效能,並具有出色的延遲穩定性和高達 3 DWPD 的寫入耐用性。

在整個測試過程中,9550 Max 證明了它能夠輕鬆處理企業級和 AI/ML 管線,並在 GPU 直連儲存、FIO 和 DLIO 環境中提供可預測的擴充功能。其性能在不同的工作負載和隊列深度下保持一致,體現了美光 Gen5 平台和韌體優化的成熟度。與 7600 Max 相比,9550 Max 在吞吐量和響應速度方面實現了雖小但可衡量的提升,尤其是在更高的隊列深度下,同時保持了相同的低延遲特性,這使得這兩款型號在各自的層級中都成為強有力的競爭者。

Micron 9550 Max 背面和平面視圖。

從部署角度來看,U.2 和 E3.S 外形尺寸的靈活性確保其能夠在傳統和下一代基礎設施中順利應用。其高能源效率和 OCP 合規性進一步增強了其在密集資料中心部署中的適用性。

整體而言,美光 9550 Max 是一款性能全面的企業級 SSD,兼具持續的混合工作負載效能、營運效率和可靠性。對於尋求 PCIe Gen5 就緒性且不犧牲穩定性和使用壽命的企業而言,這無疑是一大進步,使其成為性能最強大的混合用途 SSD 之一。 NVMe 目前可用的解決方案。

產品頁面

參與 StorageReview

電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS訂閱

迪倫多爾蒂

K-12 網路管理員,精通思科網路、IP 安全性和 NAC 解決方案。 UniFi 愛好者和家庭實驗室人員,測試和審查網路和安全產品。