搭載 PERC975 系列 RAID 控制器的戴爾 H13i 是該公司十多年來在硬體 RAID 領域取得的最重大飛躍。雖然戴爾會定期發布 PERC 產品線的更新,但這些更新大多是漸進式的,重點在於隨著 PCIe 的更新換代而進行的控制器調優和頻寬提升。但其底層架構仍與多年來定義企業 RAID 的 SATA 和 SAS 傳統架構緊密相連。 PERC H975i 徹底打破了這個循環。這款控制器基於博通的 SAS51xx 系列晶片組構建,標誌著向快閃記憶體優先和 NVMe 原生設計的明確過渡。透過專門支援 NVMe 驅動器並取消對傳統 HDD 和 SATA 技術的支持,H975i 採用了一種前瞻性的儲存基礎架構方法,並針對現代資料密集型和 AI 優先工作負載的高效能、低延遲需求進行了最佳化。
關鍵要點
- 快閃記憶體優先 NVMe RAID: PERC13 H975i 完全脫離 SAS/SATA,基於 Broadcom SAS51xx 構建,實現 NVMe 原生、AI 就緒架構。
- 巨大的世代跨越: PCIe Gen5 x16 每個控制器最多可配備 16 個 NVMe 驅動器(兩個控制器配備 32 個),在測試中每個控制器可提供 52.5 GB/s 和 12.5M IOPS,與 PERC12 相比,其優勢包括 +88% 讀取頻寬、+318% 寫入頻寬、31% I 4% 寫入帶寬、
- AI伺服器適配: 前端整合設計釋放了 GPU 的後部 PCIe 插槽,縮短了 MCIO 運行時間,並為每個加速器啟用專用儲存管道,以實現更穩定、更確定的吞吐量,且不會增加 CPU 開銷。
- 壓力下的彈性: 超級電容器保護的快取和更快的重建將時間縮短至 10 分鐘/TiB,同時保持重建期間的高效能(高達 53.7 GB/s 的讀取速度、68 GB/s 的寫入速度、17.3M/5.33M 4K IOPS)。
- 端對端安全: 硬體信任根、SPDM 設備身分以及涵蓋驅動器、飛行中資料和控制器快取的全方位加密。
PERC H975i 提供無與倫比的效能和架構創新。它採用 PCIe Gen 5 x16 主機接口,最多支援 16 個 NVMe 硬碟(每個系統 32 個 NVMe 硬碟,配備兩個控制器),在我們的測試中,H975i 實現了驚人的 52.5 GB/s 最大吞吐量和每個控制器 12.5 萬次 IOPS。與 PERC2 相比,這幾乎在所有關鍵類別中都提升了兩倍,PERC12 的最高吞吐量為 6.9 萬次 IOPS,吞吐量為 27 GB/s。除了原始效能之外,PERC13 還引入了基於超級電容器的快取保護機制(取代傳統的電池供電系統),在確保資料完整性的同時又不影響運作可靠性。在前代產品安全特性的基礎上,H975i 現在擴展了全方位加密功能,可加密快取中的數據,並提供全面的傳輸中和靜態資料保護。
PERC H975i 是一款專用儲存加速器,旨在滿足 AI 工作負載前所未有的運算需求。它兼具高密度和高效能,以及低延遲存儲,且不增加 CPU 開銷。實際上,將一張能夠佔用 x5 介面的 PCIe Gen16 RAID 卡與 Gen5 GPU 配對,可為每個加速器提供專用的儲存管道。這簡化了 PCIe/NUMA 拓撲,避免了鄰域雜訊效應,並將重建或後台任務隔離到該 GPU 的 I/O 域。
將其擴展為雙 RAID 卡,用於兩塊 GPU,即可保持線性效能,同時避免共享通道或快取的爭用。如此一來,即可為資料密集型訓練和推理(大批量、快速重排、快速檢查點讀取)提供更穩定的輸入頻寬,並在負載和重建期間實現更緊密的延遲分佈。這種架構不僅能推動更高的尖峰數據,還能讓吞吐量更具確定性,這正是多 GPU AI 伺服器維持高利用率的必要條件。
Dell PERC12 H965i 和 PERC13 H975i 規格
| 獨特之處 | PERC12 H965i 正面 | PERC13 H975i 正面 |
|---|---|---|
| RAID級別 | 0,1,5,6,10,50,60 | 0,1,5,6,10,50,60 |
| 非 RAID(JBOD) | 可以 | 可以 |
| 主機匯流排類型 | PCIe Gen4 x16 | PCIe Gen5 x16 |
| 邊帶管理 | I2C、PCIe VDM | I2C、PCIe VDM |
| 每個連接埠的機櫃數量 | 不適用 | 不適用 |
| 處理器/晶片組 | Broadcom 片上 RAID,SAS4116W | Broadcom 片上 RAID,SAS5132W |
| 能源包/備用電源 | 電池 | 超級電容器 |
| 本機金鑰管理安全 | 可以 | 可以 |
| 安全企業金鑰管理器 | 可以 | 可以 |
| 控制器佇列深度 | 8,192 | 8,192 |
| 非揮發性緩存 | 可以 | 可以 |
| 快取記憶體 | 8 GB DDR4 3200 MT/s | 整合 RAID 緩存 |
| 快取函數 | 回寫、預讀、直寫、始終回寫、不預讀 | 回寫、直寫、始終回寫、不預讀 |
| 最大複雜虛擬磁碟 | 64 | 16 |
| 最大簡單虛擬磁碟數 | 240 | 64 |
| 最大磁碟組數 | 64 | 32 |
| 每個磁碟組的最大 VD | 16 | 8 |
| 最大熱備用設備數量 | 64 | 8 |
| 支援熱插拔設備 | 可以 | 可以 |
| 自動配置(主要並執行一次) | 可以 | 可以 |
| 硬體異或引擎 | 可以 | 可以 |
| 在線擴容 | 可以 | 可以 |
| 專用和全域熱備盤 | 可以 | 可以 |
| 支援的驅動器類型 | NVMe Gen3 和 Gen4 | NVMe Gen3、Gen4 和 Gen5 |
| VD 條帶元素尺寸 | 64KB | 64KB |
| NVMe PCIe 支持 | Gen4 | Gen5 |
| 配置最大 NVMe 驅動器 | 每個控制器 8 個驅動器 | 每個控制器 16 個驅動器 |
| 支援的扇區大小 | 512B、512e、4Kn | 512B、512e、4Kn |
| 儲存啟動支持 | 僅 UEFI | 僅 UEFI |
Dell PowerEdge 伺服器中的 PERC13 H975i 前置控制器旨在無縫整合到系統架構中。與佔用後置 PCIe 插槽的傳統附加卡不同,H975i 直接連接到前置驅動器背板,並透過專用 PCIe 5.0 介面與主機板上的前置 MCIO 連接器連接。這種整合設計保留了後置 PCIe 插槽,可用於高效能 GPU 和其他 PCIe 擴展,同時顯著縮短了線纜長度。這有助於保持訊號完整性,使系統更可靠、更易於維護。最終,內部佈局更加整潔,氣流更加順暢,非常適合高密度運算密集部署。
H975i 實施了全面的安全架構,涵蓋從矽片級硬體認證到 SED 驅動器的全頻譜資料加密。硬體信任根在此基礎上建立了從內部啟動 ROM 到每個韌體組件的不可變加密驗證鏈,確保只有經過驗證的戴爾認證韌體才能在控制器上執行。這種基於硬體的安全性透過安全協定和資料模型 (SPDM) 實現擴展,其中每個控制器都包含唯一的裝置身分證書,使 iDRAC 能夠執行即時身份驗證。該控制器將加密保護擴展到傳統的靜態資料場景之外,涵蓋了快取。它將加密金鑰保存在未經授權的韌體無法存取的安全記憶體區域中。因此,無論敏感資料是駐留在磁碟機上還是在快取中正在處理,它們都受到保護。
H975i 的電源保護功能與傳統的電池供電系統相比,透過整合超級電容器實現了另一項重大改進。超級電容器可在意外斷電事件中提供瞬時供電,確保將加密的快取完整刷新到非揮發性記憶體,從而實現資料無限期的保護。此外,與需要 4-8 小時完成學習週期的電池供電系統不同,H975i 的超級電容器可在 5-10 分鐘內完成透明學習週期,且校準期間效能不會下降。這種設計消除了電池解決方案固有的維護成本和效能下降問題,同時為關鍵任務資料保護提供了卓越的可靠性。
整合監控和管理
戴爾的 PERC13 RAID 控制器與戴爾的許多 RAID 解決方案一樣,可以透過多種方式進行管理和監控,包括在平台啟動期間透過 BIOS 中的系統設定、透過 iDRAC Web GUI、PERC12 實用程序,甚至透過戴爾 OpenManage UI 和 CLI。
iDRAC 控制器管理
查看 iDRAC 管理介面時,「控制器」標籤會提供伺服器儲存硬體的概覽。除了 BOSS 卡之外,您還會看到雙 PERC H975i 控制器,其中包含韌體版本、快取和電池健康狀況等資訊。此摘要資訊可讓您快速驗證控制器的就緒狀態和配置,而無需存取 BIOS 或使用 CLI 工具。
iDRAC 中的「虛擬磁碟」標籤顯示已建立的儲存陣列,包括其 RAID 等級、大小和快取策略。此系統中列出了兩個 RAID-10 組,均基於 SSD 建置。管理員可以透過此視圖確認磁碟區是否在線上、建立新的虛擬磁碟,或使用「操作」功能表調整或刪除現有配置。
RAID 控制器配置公用程式
上圖顯示了在 PowerEdge R975 平台上進入 PERC H7715i 前端設定實用程式系統設定的範例。透過此介面,您可以管理所有關鍵 RAID 控制器設置,包括組態管理、控制器管理、裝置管理等。此實用程式提供了一種簡化的方法,可在平台啟動過程中直接設定虛擬磁碟並監控硬體元件。
選擇 RAID 等級後,我們繼續選擇陣列的實體磁碟。在此範例中,所有可用的 NVMe SSD 均已列出並標記為支援 RAID。我們從未配置的容量池中選擇多個 3.2 TiB Dell DC NVMe 驅動器。媒體類型、介面和邏輯磁區大小等篩選條件有助於縮小選擇範圍。選取所需的磁碟機後,我們可以按一下「確定」來完成磁碟選擇並繼續建立虛擬磁碟。
在完成虛擬磁碟建立之前,系統會顯示警告,確認所選實體磁碟上的所有資料將會永久刪除。為了繼續,我們勾選“確認”框,然後選擇“是”以授權該操作。此安全措施有助於防止在 RAID 建立過程中意外遺失資料。
虛擬磁碟建立完成後,它會出現在「虛擬磁碟管理」功能表下。在本例中,我們新建的 RAID 5 虛擬磁碟容量為 43.656 TiB,狀態為「就緒」。只需幾個簡單的步驟,儲存即可配置完成並投入使用。
PERC BIOS 設定公用程式和 iDRAC 介面不僅提供了直覺的本機和遠端管理選項,戴爾還提供了名為 PERC CLI (perccli2) 的強大命令列工具。此實用程式支援 Windows、Linux 和 VMware,非常適合在無頭環境中編寫腳本、實現自動化或管理 PERC 控制器。戴爾還提供了有關安裝和命令使用的詳細文檔, PERC CLI 在他們的支援網站上。
戴爾PERC13性能測試
在深入效能測試之前,我們使用配置了雙 PERC H7715i 前端控制器的 Dell PowerEdge R975 平台準備了環境。這些控制器搭配了 3.2 個 12,000 TB 的 Dell NVMe 硬碟,每個硬碟的額定連續讀取速度高達 5,500 MB/s,連續寫入速度高達 128 MB/s(使用 13 KiB 區塊大小)。這種高效能基礎使我們能夠突破 PERCXNUMX 控制器的吞吐量極限,並大規模評估 RAID 效能。
- 平台: 戴爾PowerEdge R7715
- 中央處理器: AMD EPYC 9655P 96 核心處理器
- 拉姆: 768GB(12 x 64GB)DDR5-5200 ECC
- 突襲控制器: 2 個 PERC13 H975i
- 貯存: 32 個 3.2TB Dell CD8P NVMe 驅動器
- PCIe加速器: 2 個 NVIDIA H100 GPU
NVIDIA Magnum IO GPU 直接儲存:AI 與儲存的結合
現代 AI 流水線通常受 I/O 限制,而非計算限制。資料批次、嵌入和檢查點必須足夠快地從記憶體傳輸到 GPU 內存,以保持加速器繁忙。 NVIDIA 的 Magnum IO GDS(透過 cuFile)縮短了傳統的「SSD → CPU DRAM → GPU」路徑,讓資料直接從 NVMe 直接傳輸到 GPU 記憶體。這消除了 CPU 的反彈緩衝區開銷,降低了延遲,並使吞吐量在負載下更可預測,所有這些都轉化為更高的 GPU 利用率、更短的 epoch 時間和更快的檢查點保存/加載週期。
我們的 GDSIO 測試旨在測量從儲存到 GPU 的資料路徑本身,涵蓋了區塊大小和執行緒數,以顯示支援 PERC13 的 NVMe 群組能夠以多快的速度將資料流傳輸到 H100 記憶體。每個 H975i 都連接到 PCIe 5.0 x16 連結(理論上每個控制器約 64 GB/s,單向),兩個控制器的總上限接近 112 GB/s;我們的曲線穩定期可以告訴您是鏈路限制還是介質限制。對於從業者來說,可以將圖表視為實際工作負載的代理:大型順序讀取映射到資料集流傳輸和檢查點恢復;大型順序寫入映射到檢查點保存;並發的較小傳輸反映了資料加載器的混洗和預取。簡而言之,強大的 GDSIO 擴充意味著在訓練和高吞吐量推理過程中更少的 GPU 卡頓和更穩定的效能。
GDSIO讀取順序吞吐量
從順序讀取開始,吞吐量在較低的區塊大小和執行緒數下開始適度增長,在單執行緒 0.3K 區塊時約為 8 GiB/s。在 16K 到 512K 區塊之間,效能急劇提升,尤其是在執行緒數從 4 個增加到 16 個時。最顯著的提升發生在 1M、5M 和 10M 區塊大小下,吞吐量急劇躍升,在 103M 區塊大小和 10 個執行緒下達到 256 GiB/s 的峰值。這項進展表明,PERC13 陣列受益於更大的區塊大小和多線程並行性,最佳飽和度約為 64-128 個線程,超過此值後,吞吐量將趨於平穩。
GDSIO 讀取順序吞吐量差異
在從 8K 到 10M 的區塊大小的順序讀取測試中,PERC13 (H975i) 的表現始終優於 PERC12 (H965i),當區塊大小較大、執行緒數更高時,百分比增益會顯著擴大。
在較小的區塊大小(8K-16K)下,效能提升不大(通常在0-20%之間),在一些個別情況下,由於低隊列深度下的測試波動性,H975i 略微落後。當區塊大小達到32K-64K時,優勢變得更加穩定,H975i 在大多數執行緒數下都實現了30-50%的吞吐量提升。
在較大的區塊大小(128K 至 10M)下,PERC13 控制器充分釋放了系統的全部順序讀取潛力,差異最為顯著。 H975i 的效能提升比 H50i 高達 120% 至 965%。例如,在 1M 區塊大小、8-16 個執行緒的情況下,吞吐量提升超過 55 GiB/s,相當於提升了約 90%。在 5M 和 10M 區塊大小下,效能提升通常超過 100%,某些配置的效能幾乎是上一代的兩倍。
總體而言,PERC13 (H975i) 在順序讀取工作負載方面佔據絕對領先地位,尤其是在區塊大小和執行緒數量增加的情況下。雖然較小的區塊大小也顯示出了漸進式的提升,但在 256K 及以上時,較新的控制器始終能夠提供 50% 至 100% 以上的效能提升,這充分彰顯了戴爾最新 RAID 平台在架構上的進步。
GDSIO 讀取順序延遲
隨著順序讀取吞吐量的提升,在較小的區塊大小和較低的執行緒數下,延遲仍然可控。例如,在高達 100K 區塊和 64 個執行緒的情況下,延遲保持在 16 微秒以下,表示該範圍內的讀取處理效率很高。一旦區塊大小和執行緒數增加,尤其是在 5M 和 10M 且執行緒數達到 64 個或更多時,延遲就會迅速上升,在 211.8M 區塊大小和 10 個執行緒的情況下達到 256 毫秒的峰值。這凸顯了即使在吞吐量保持較高的情況下,極端工作負載下控制器或佇列瓶頸是如何出現的。
在 1M 區塊大小和 8-16 個執行緒的情況下,效能和效率達到了最佳平衡,陣列保持了 87.5-93.7 GiB/s 的吞吐量,同時將延遲保持在 179-334 微秒之間。這個區域代表了最大化頻寬並將延遲保持在毫秒以下的最佳平衡點。
GDSIO 寫入順序吞吐量
隨著區塊大小的增加,寫入效能在早期表現出強勁的成長勢頭,吞吐量從 1.2K 和 8 執行緒時的 1 GiB/s 攀升至 13.9K 時的 256 GiB/s。最顯著的成長出現在 128K 到 1M 區塊大小之間,其中吞吐量在 80 到 8 個執行緒時達到 16 GiB/s 以上。峰值效能出現在 5M 和 10M 區塊大小時,從 100 執行緒開始維持 101 到 8 GiB/s。
對於這些較大的區塊,效能在 8 到 64 個執行緒之間趨於平緩,這表明控制器在擴展曲線的早期就達到了飽和。在更高的線程數下,尤其是 128 和 256 個線程,吞吐量穩定性有所不同,在 5M 和 10M 的大塊上保持穩定,速度為 101 GiB/s,但對於中等大小的塊(例如 256K),吞吐量有所下降,從 61.2 個線程時的 32 GiB/s 時的 45.3 GiB/s 下降到。
GDSIO 寫入順序吞吐量差異
在順序寫入測試中,PERC13 (H975i) 的效能顯著優於 PERC12 (H965i),尤其是在區塊大小和執行緒數增加的情況下。在小塊大小(8K-32K)下,效能提升幅度不大,通常在 0-10% 之間,偶爾的測試雜訊顯示差異可以忽略不計。
從 64K 開始,H975i 的優勢更加明顯。在 64K 區塊大小下,效能提升達到 40-70%,吞吐量相比 H12i 提升超過 17-965 GiB/s。在 128K-256K 大小下,提升更加顯著,H975i 在中高執行緒數下持續提供 50-70% 的吞吐量提升。
效能差距最顯著的體現在較大的區塊大小(512K 到 10M)。在 512K 區塊大小下,H975i 的吞吐量提升了 31 到 56 GiB/s,相當於比 H60i 提升了 80% 到 965%。在 1M 區塊大小下,領先優勢進一步擴大,吞吐量躍升了 40 到 68 GiB/s,相當於提升了 70% 到 90%。最後,在 5M 和 10M 區塊大小下,PERC 13 的吞吐量幾乎是 PERC 12 的兩倍,增量為 75 到 79 GiB/s,在某些線程密集的場景下,吞吐量提升了 100%。
整體而言,PERC 13 控制器在順序寫入效能方面展現出明顯的世代飛躍。雖然在最小區塊大小下差異較小,但一旦工作負載超過 64K,H975i 的吞吐量便會持續提升 50% 到 100%,從而在寫入密集型順序工作負載方面牢牢確立了其優於 H965i 的優勢。
GDSIO 寫入順序延遲
在較小的區塊大小和較低的執行緒數下,順序寫入的延遲仍然非常低,在最多 50 個執行緒的情況下,128K 區塊的延遲通常保持在 8 微秒以下。隨著線程數的增加,延遲的增加更加明顯。例如,在 392K 區塊大小(512 個執行緒)下,延遲達到 32 微秒;在 1M 區塊大小(1 個執行緒)下,延遲超過 64 毫秒。
在最大區塊大小和最高並發等級下,飽和效應變得更加明顯。在 12.4M 和 5 個執行緒下,延遲上升至 128 毫秒;在 50.3M 和 10 個執行緒下,延遲達到峰值 256 毫秒。
順序寫入工作負載的最高效操作點出現在具有 1 到 5 個執行緒的 8M 或 16M 區塊大小時,其中吞吐量達到 87.9 到 101.2 GiB/s,而延遲保持在 178 µs – 1.7 ms 以內,提供強勁的持續效能,而延遲保持在 XNUMX µs – XNUMX ms 以內,提供強勁的持續效能,而不會觸發過多的寫入佇列。
MLPerf Storage 2.0 效能
為了評估 AI 訓練環境中的實際效能,我們使用了 MLPerf Storage 2.0 測試套件。 MLPerf Storage 專為測試真實模擬深度學習工作負載中的 I/O 模式而設計。它能夠深入了解儲存系統如何應對檢查點和模型訓練等挑戰。
檢查點基準
在訓練機器學習模型時,檢查點對於定期保存模型狀態至關重要。這有助於防止因硬體故障等中斷而導致進度遺失,支援在訓練期間提前停止,並允許研究人員從各個檢查點分支進行實驗和改進。
檢查點保存時長對比顯示,戴爾 PERC13 在所有型號配置中均表現優於 PERC12。 PERC 13 的保存時間為 7.61 至 10.17 秒,而 PERC12 執行相同操作則需要 10.41 至 20.67 秒。效能差距在 1T 參數型號中最為明顯,PERC13 僅需 10 秒多一點即可完成保存,而 PERC12 則需要 20 秒以上。這意味著,對於最大型號而言,保存時間縮短了約 50%。
檢查「保存」吞吐量結果,數據顯示 PERC13 擁有卓越的頻寬利用率,能夠持續提供更高的資料傳輸速率。 PERC13 的吞吐量在 11.46 至 14.81 GB/s 之間,在 1T 型號上達到峰值效能。相比之下,PERC12 的最高吞吐量為 9.49 GB/s,在最大配置下則降至 6.98 GB/s。較新的控制器在不同型號上保持更穩定的性能,這表明其在處理檢查點操作中常見的大量順序寫入方面進行了更優化。
載入時長對比顯示,PERC13 也具有類似的優勢,儘管效能差異因模型大小而異。對於較小的模型(8B、70B),PERC 13 加載檢查點的速度比 PERC35 快約 40-12%。然而,我們再次看到 1T 模型的提升最為顯著,PERC13 的載入時間為 10.58 秒,而 PERC12 則為 21.22 秒(縮短了近 50%)。更快的恢復時間對於在中斷後從檢查點恢復訓練時最大限度地減少停機時間至關重要。
最後,在負載吞吐量指標方面,PERC13 表現出明顯的效能優勢,在所有配置下都能持續保持 18 GB/s 以上的吞吐量,並在 23.73B 型號上達到 405 GB/s 的峰值。相較之下,PERC12 的效能較低,範圍從 6.8 GB/s 到 10.68 GB/s。
菲奧 性能基準
雖然這篇評測採用了新的測試方法,但為了突顯改進,我們提前了上一篇關於 戴爾的 PERC12 控制器, 顯示峰值頻寬和峰值吞吐量的差異。
說 PERC13 帶來了改進,這未免有些輕描淡寫。在每個控制器上部署單一 RAID5 磁碟區時,我們測得讀取頻寬提升了 88%,寫入頻寬提升了 318%,31K 隨機讀取效能提升了 4%,466K 隨機寫入效能更是驚人地提升了 4%。這並非 PERC 13 控制器的絕對尖峰效能;使用更多虛擬磁碟可以實現更高的速度。然而,此結果反映了在最大化總容量的情況下,單命名空間的表現。
| 工作量 | 雙 PERC 12(2 x RAID5) | 雙 PERC 13(2 x RAID5) | 性能提升 |
|---|---|---|---|
| 128K 順序讀取 | 56,107(MB/秒) | 105,227(MB/秒) | 88% |
| 128K 順序寫入 | 24,351(MB/秒) | 101,723(MB/秒) | 318% |
| 4KB隨機讀取 | 13,205,656(IOPS) | 17,342,057(IOPS) | 31% |
| 4KB隨機寫入 | 1,725,198(IOPS) | 9,758,677(IOPS) | 466% |
我們專注於戴爾 PERC H975i 和 PERC H965i 控制器的效能,並充分利用 RAID 5 技術,可提供出色的容量組合和奇偶校驗保護。我們測試了戴爾 PERC H975i 上的多種虛擬磁碟 (VD) 配置:RAID 8 (5R8) 中的 5 個 VD、RAID 4 (5R4) 中的 5 個 VD 以及 RAID 2 (5R2) 中的 5 個 VD。我們也測試了戴爾 PERC H965i 上的兩種設定:RAID 4 (5R4) 中的 5 個 VD 和 RAID 2 (5R2) 中的 5 個 VD。配置的選擇取決於每個控制器可管理的 SSD 數量。最新的 PERC 13 控制器最多可管理 16 個 SSD,可輕鬆將其劃分為最多 4 個 RAID 5 組,每個組包含 4 個 SSD。舊款 PERC12 只能管理 8 個 SSD,這限制了它最多只能測試 2 個 RAID5 SSD 群組。這種配置意味著,在 8R5 系統中,每個 PERC RAID 控制器上都有四個 4 磁碟機 RAID 5 組。
每種配置都經歷了相同的基準測試過程,首先是預處理階段,該階段包含兩次使用順序工作負載的完整設備寫入。達到穩定狀態後,我們測量了各種存取模式下的效能。在每次新的工作負載測試之前,我們都會使用相應的傳輸大小重新執行預處理週期,以確保結果的一致性。
128K 順序寫入頻寬
在 128K 順序寫入測試中,不同代控制器之間的效能差異顯著。 PERC H965i 陣列的吞吐量適中,2R5 配置達到 28.1 GB/s,4R5 配置達到 29.5 GB/s,顯示透過新增 RAID 磁碟進行擴充的效果微乎其微。與之形成鮮明對比的是,PERC H975i 控制器在所有配置下均表現出色:2R5 陣列達到 99.3 GB/s(253%),4R5 配置達到 99.7 GB/s(238%),8R5 配置峰值達到 101.3 GB/s(比 H243%)。總體而言,無論磁碟數量多少,H965i 的吞吐量都緊緊圍繞 4 GB/s,這表明該控制器在 5K 順序寫入方面的頻寬上限已到。
128K 順序寫入延遲
在 128K 順序寫入延遲測試中,不同代控制器之間有明顯差異。 PERC H965i 陣列的延遲更高,2R5 配置的延遲範圍從 0.0238 毫秒到 17.8 毫秒,4R5 配置的延遲則延長至 38.9 毫秒,顯示添加 RAID 磁碟帶來的效能提升微乎其微。相較之下,PERC H975i 控制器在所有配置中都實現了顯著更低的延遲:2R5 陣列的延遲範圍從 0.0173 毫秒到 5.0 毫秒(峰值延遲降低了 72%),4R5 配置的延遲範圍從 0.0179 毫秒到 10.5 毫秒(降低了 73 毫秒配置的延遲範圍從 8 毫秒到 5 毫秒(降低了 0.0188 毫秒。 H20.1i 48R965 相比降低了 4%)。
128K 順序讀取頻寬
在戴爾系統上進行 128K 順序讀取測試時,PERC H965i 控制器在兩種配置下均表現出一致的效能。 2R5 陣列的最大頻寬達到 54.8 GB/s,而 4R5 配置也達到了 54.8 GB/s。相比之下,PERC H975i 控制器表現出了顯著的卓越性能,三種配置的峰值頻寬均達到約 102.7 至 102.8 GB/s。 H975i 2R5 陣列的頻寬為 102.8 GB/s(提升 87%),4R5 配置的頻寬為 102.7 GB/s(提升 87%),8R5 配置的頻寬為 102.7 GB/s(提升 87%)。值得注意的是,雖然 H965i 控制器在 2R5 和 4R5 配置之間沒有顯示出有意義的性能擴展,但 H975i 控制器在所有 RAID 5 配置中都保持一致的高性能,並且無論陣列中的驅動器數量有多少,似乎都達到了頻寬上限。
128K 順序讀取延遲
在 128K 順序讀取延遲測試中,PERC H965i 在 0.2006R16.1 上的延遲範圍為 2 毫秒至 5 毫秒,在 0.1644R24.7 上的延遲範圍為 4 毫秒至 5 毫秒,且隨著驅動器規模的擴大,延遲範圍為 975 毫秒至 2 毫秒,且隨著驅動器規模的擴大,延遲範圍為 5 毫秒也隨之增大。相較之下,PERC H0.062i 的效率更高,4.9R80 配置下的延遲範圍為 4 毫秒至 5 毫秒(峰值延遲降低 0.075%),9.8R60 配置下的延遲範圍為 8 毫秒至 5 毫秒(降低 19.5%),21R965 下的峰值延遲為 4i5 毫秒(比 HXNUMX
64k隨機寫入頻寬
在 64K 隨機寫入測試中,舊款 PERC H965i 控制器表現出穩定但有限的效能,無論磁碟數量多少,2R5 和 4R5 配置都實現了幾乎相同的 8.3 GB/s 吞吐量。與之形成鮮明對比的是,PERC H975i 控制器實現了卓越的性能提升:2R5 配置達到了 39.8 GB/s(提升了 379%),而 4R5 則保持了相同的 39.8 GB/s 峰值頻寬(提升了 379%)。 H8i 上的 5R975 陣列略勝一籌,達到 40.3 GB/s(提升了 386%)。
64k 隨機寫入延遲
在 64K 隨機寫入延遲測試中,H965i 在更高負載下表現不佳,2R5 延遲範圍從 0.020 毫秒到 30.0 毫秒,4R5 延遲則高達 60.0 毫秒。與之形成鮮明對比的是,H975i 控制器的表現明顯更佳:2R5 延遲範圍從 0.0115 毫秒到 6.3 毫秒(峰值延遲降低了 79%),4R5 延遲僅為 12.6 毫秒(降低了 79%),8R5 延遲峰值達到 24.8 毫秒(比 H59 的 H965%)。
64k隨機讀取頻寬
在 64K 隨機讀取測試中,PERC H965i 搭配 2R5 和 4R5 陣列都實現了幾乎相同的 54.6 GB/s 吞吐量。與之形成鮮明對比的是,PERC H975i 控制器再次表現出色,三種配置均達到了約 102.7 GB/s 的吞吐量,比 H88i 性能提升了 965%。值得注意的是,H975i 配置在不同 RAID 陣列大小下表現出了顯著的一致性,無論在 RAID-102.7 陣列中使用 102.7 個、2 個或 4 個硬碟,峰值頻寬均僅在 8 GB/s 到 5 GB/s 之間。這表明,在 64K 隨機讀取工作負載下,我們能夠完全飽和控制器,並且在較新的 H975i 平台上不會受到硬碟的限制。
64k 隨機讀取延遲
對於 64K 隨機讀取,H965i 2R5 陣列的延遲範圍為 0.226 毫秒至 4.6 毫秒,而 4R5 陣列則延長至 9.6 毫秒。升級到 H975i 後,延遲顯著降低,2R5 陣列的延遲範圍為 0.080 毫秒至 2.4 毫秒(峰值延遲降低 48%),4R5 陣列的延遲範圍為 0.080 毫秒至 4.9 毫秒(降低 49%),8R5 陣列的延遲範圍為 0.080 毫秒(R9.7 毫秒陣列與 HR965 毫秒陣列的延遲範圍為 4 毫秒(R5 毫秒(R975 毫秒)。總體而言,HXNUMXi 表現出更嚴格的控制,並且在 RAID 組中的延遲上限更低。
16k 順序寫入 IOPS
在 16K 順序寫入測試中,PERC H965i 控制器效能表現一般,2R5 配置達到 1.73 萬 IOPS,4R5 配置達到 1.87 萬 IOPS。相較之下,PERC H975i 的效能大幅提升,2R5 配置達到 6.44 萬 IOPS(比 H272i 提升 965%)。 H975i 的 4R5 陣列峰值達到 6.54 萬 IOPS(提升 250%),而 8R5 配置達到 6.53 萬 IOPS(比 H249i 965R4 提升 5%),這再次表明控制器在 6.5K 塊大小下的性能飽和度在 16 萬 IOPS 左右。
16k 順序寫入延遲
在 16K 順序寫入操作中,H965i 陣列在 0.0080R3.5 模式下的寫入時間為 2 毫秒至 5 毫秒,在 0.0083R5.3 模式的寫入時間為 4 毫秒至 5 毫秒。 H975i 表現出更高的效率,2R5 模式下的寫入時間為 0.0070 毫秒至 0.80 毫秒(低 77%),4R5 模式下的寫入時間為 1.42 毫秒(低 73%),8R5 模式下的寫入時間為 6.2 毫秒(低 17%),965R4 模式下的寫入時間為 5 毫秒(比 HXNUMXi)。
16k 順序讀取 IOPS
在 16K 順序讀取測試中,PERC H965i 控制器表現出色,2R5 配置達到了 3.56 萬 IOPS,4R5 配置也達到了 3.56 萬 IOPS。相較之下,PERC H975i 控制器所有配置的效能均穩定在 6.64 萬 IOPS 左右,比 H86i 提升了 965%。
16k 順序讀取延遲
在 16K 順序讀取中,H965i 2R5 陣列的延遲範圍為 0.040 毫秒至 1.15 毫秒,而 4R5 陣列的延遲範圍為 3.0 毫秒。在 H975i 上,延遲有所改善:2R5 陣列的延遲為 0.038 至 0.62 毫秒(降低了 46%),4R5 陣列的延遲峰值為 1.23 毫秒(降低了 59%),8R5 陣列的延遲則達到了 2.47 毫秒(相比 H19i 965R4%)。
16k 隨機寫入 IOPS
在16K塊大小的隨機IO下,我們發現測試初期就達到了飽和點。兩種PERC H965i配置(2R5和4R5)的性能幾乎相同,約492,000 IOPS。搭配975R2陣列的PERC H5i控制器實現了2.57萬IOPS(提升422%)。 H975i 4R5和8R5配置略高,約2.60萬IOPS(提升428%)。
16k 隨機寫入延遲
在 16K 隨機寫入時,H965i 的延遲更高,2R5 延遲範圍為 0.0082 毫秒至 8.6 毫秒,4R5 延遲則高達 16.6 毫秒。 H975i 的延遲則顯著改善,2R5 延遲為 0.0070 毫秒至 1.59 毫秒(降低了 82%),4R5 延遲高達 3.17 毫秒(降低了 81%),8R5 延遲最高達到 6.27 毫秒(相比 H62i 的 965R 延遲降低了 4R%)。
16k 隨機讀取 IOPS
在 16K 隨機讀取效能方面,PERC H965i 配置表現出色,2R5 陣列達到 3.55 萬 IOPS,4R5 陣列也達到 3.55 萬 IOPS。 PERC H975i 2R5、4R5 和 8R5 配置的峰值效能幾乎相同,約 6.64 萬 IOPS,比 H87i 世代提升了 965%。
16k 隨機讀取延遲
在 16K 隨機讀取中,H965i 陣列的 0.0906R1.15 延遲為 2 至 5 毫秒,2.74R4 延遲最高可達 5 毫秒。 H975i 再次降低了延遲,2R5 延遲為 0.072 至 0.62 毫秒(降低了 46%),4R5 延遲最高可達 1.23 毫秒(降低了 55%),8R5 延遲最高可達 2.47 毫秒(相比 H10i 965R4 降低了 5%)。
4K隨機寫入IOPS
在4K隨機寫入測試中,975R2配置的PERC H5i控制器峰值達到了9.76萬IOPS,4R5陣列的性能略高,為9.94萬IOPS,8R5配置的性能最為強勁,達到了10.10萬IOPS。
4K隨機寫入延遲
在 4K 測試中,我們僅評估了 H975i 的峰值表現。所有陣列的延遲均表現優異:2R5 陣列的延遲範圍為 0.0058 毫秒至 0.47 毫秒,4R5 陣列的延遲範圍為 0.88 毫秒,8R5 陣列的延遲峰值為 1.63 毫秒。這些結果表明,在最小區塊大小下,H975i 保持了極低的延遲,始終低於 2 毫秒。
4K 隨機讀取 IOPS
我們把最令人興奮的圖表之一留到了最後:在4K隨機讀取測試中,採用975R2配置的H5i達到了令人印象深刻的17.3萬IOPS。 H975i 4R5陣列達到了20.1萬IOPS,而8R5配置則實現了最高的吞吐量,達到了25.2萬IOPS。
4K隨機讀取延遲
在 4K 隨機讀取中,所有陣列的初始延遲均為 0.069 毫秒,其中 2R5 陣列的峰值為 0.29 毫秒,4R5 陣列的峰值為 0.53 毫秒,8R5 陣列的峰值為 0.65 毫秒。所有 RAID 組的低峰值凸顯了 H975i 處理小型隨機讀取的卓越效率。
重建期間效能不受影響
與 PERC12 相比,戴爾 PERC13 控制器在陣列重建期間,為所有工作負載提供顯著更高的吞吐量。順序讀取速度從 53.7GB/s 提升一倍多,達到 25GB/s(提升 114.7%),順序寫入速度從 68GB/s 躍升至 14.6GB/s(提升 363.7%)。小塊效能進一步拉大了兩者之間的差距:4K 隨機讀取速度從 17.33 萬 IOPS 攀升至 4.68 萬 IOPS(提升 270.4%),而 4K 隨機寫入速度從 5.33 萬 IOPS 飆升至 0.48 萬 IOPS(提升 1013.1%)。簡而言之,PERC13 最大限度地減少了重建對效能的影響,即使在維護任務最繁重的時段也能保留主機空間。
| 工作量 | 雙 PERC 12(2 × RAID5)— 重建 | 雙 PERC 13(2 × RAID5)— 重建 | % 改進 |
|---|---|---|---|
| 順序讀取頻寬 | 25(GB/秒) | 53.7(GB/秒) | 114.7% |
| 順序寫入頻寬 | 14.7(GB/秒) | 68(GB/秒) | 363.7% |
| 4KB隨機讀取 | 4,676,748(IOPS) | 17,326,888(IOPS) | 270.4% |
| 4KB隨機寫入 | 479,144(IOPS) | 5,333,783(IOPS) | 1013.1% |
快速重建,不減慢工作負載
戴爾還聲稱其在彈性和重建性能方面獲得了顯著提升,陣列重建時間從PERC80的每TB超過12分鐘縮短到PERC10的每TB僅需13分鐘。如此高的速度降低了風險窗口,並體現了控制器硬體XOR引擎、快取加速和資料路徑優化的成熟度。
在 RAID5 重建測試中,當控制器優先執行重建任務時,PERC13 的重建時間始終短於 PERC12,但需要注意的是,極高的寫入壓力可能會抵消這一優勢。啟用「優先重建」後,控制器會優先為重建任務分配資源。這使得 PERC13 控制器在順序讀取壓力下顯著縮短了重建時間。在最低主機負載(125 MB/s)下,重建時間從 11.53 分鐘/TiB 縮短至 5.32 分鐘/TiB。即使在最高負載下,重建時間也從 16.96 分鐘/TiB 縮短至 7.73 分鐘/TiB,同時保持了更高的主機讀取速率(22.4 GB/s,而 60 GB/s)。
在順序寫入壓力下,PERC13 將輕負載重建時間從 7.51 分鐘/TiB 提升至 4.98 分鐘/TiB,但在最重的寫入負載下,其重建時間上升至 15.29 分鐘/TiB,而 R760 則為 13.09 分鐘/TiB。您可以從兩個角度來看待這一點:PERC13 的重建速度較慢,但 PERC13 的寫入工作負載速度接近 PERC12 的生產水準(62.5GB/s vs 12GB/s)。換句話說,優先重建兌現了其更快重建視窗的承諾,尤其是在讀取為主的活動方面。唯一的例外是當系統同時承受非常繁重的寫入操作時;PERC13 較高的主機吞吐量可能會延長重建時間。
| <span class="notranslate">EventXtra 6大解決方案</span> | 雙 PERC 12(2 × RAID5) | 雙 PERC 13(2 × RAID5) | ||
|---|---|---|---|---|
| 最小/TiB | 總帶寬 | 最小/TiB | 總帶寬 | |
| 順序讀取 – 輕度活動 | 11.53 | 0.125 GB / s | 5.32 | 0.125 GB / s |
| 順序讀取 – 活動頻繁 | 16.96 | 22.4 GB / s | 7.73 | 60 GB / s |
| 順序寫入 – 輕度活動 | 7.51 | 0.125 GB / s | 4.98 | 0.125 GB / s |
| 順序寫入 – 活動繁重 | 13.09 | 12 GB / s | 15.29 | 62.5 GB / s |
切換到 Priority Host 模式後,該模式刻意以犧牲重建速度為代價來保護應用程式 I/O,讀取效能表現相似,寫入效能則更加細膩。在讀取工作負載下,PERC13 控制器的重建速度再次顯著快於舊款 PERC12,輕負載下重建時間從 11.23 min/TiB 降至 6.70 min/TiB,重負載下重建時間從 38.44 min/TiB 降至 19.75 min/TiB,同時能處理更多負載 46.2. GB/s)。在寫入工作負載下,Priority Host 模式始終將生產效能放在首位:PERC24.1 在最小負載下速度更快(13 min/TiB vs 7.80 min/TiB),但在最重的寫入負載下,其重建時間延長至 5.67 min/TiB,而 PERC32.81 為 12。重建時間略有延長,但 PERC25.40 為主機提供了更高的主機寫入頻寬(13GB/s vs 62.4 GB/s)。
| <span class="notranslate">EventXtra 6大解決方案</span> | 雙 PERC 12(2 × RAID5) | 雙 PERC 13(2 × RAID5) | ||
|---|---|---|---|---|
| 最小/TiB | 總帶寬 | 最小/TiB | 總帶寬 | |
| 順序讀取 – 輕度活動 | 11.23 | 0.125 GB / s | 6.70 | 0.125 GB / s |
| 順序讀取 – 活動頻繁 | 38.44 | 24.1 GB / s | 19.75 | 46 GB / s |
| 順序寫入 – 輕度活動 | 7.80 | 0.125 GB / s | 5.67 | 0.125 GB / s |
| 順序寫入 – 活動繁重 | 25.40 | 12.5 GB / s | 32.81 | 62.4 GB / s |
從部署角度來看,選擇很簡單。當您需要最小化漏洞視窗並能夠容忍一定程度的 I/O 優先權降低時,PERC13 上的「重建優先權」功能可以縮短重建時間,尤其是在讀取密集型場景下。當必須保持應用程式回應速度時,「優先主機」功能恰好能滿足您的需求;PERC13 在讀取重建方面仍然表現出色,如果絕對重建時間令人擔憂,則可能需要在寫入密集型時段進行調度或適度限制。
結語
Dell PERC H975i 將硬體 RAID 確立為以 NVMe 為中心的企業資料中心的理想解決方案。雖然 JBOD 和軟體 RAID 實作在橫向擴展環境中廣受歡迎,但這些方法會增加操作複雜性、CPU 開銷,並延長磁碟機故障時的復原時間。 H975i 提供專用硬體加速功能,配備專用奇偶校驗引擎、加速重建操作以及整合在 Dell 基礎架構堆疊中的管理功能。
對於需要一致的吞吐量特性、最小延遲變化和最大正常運行時間可靠性的人工智慧和機器學習工作負載,硬體管理的 RAID 架構可提供運算效能和操作彈性,而無需消耗關鍵主機處理資源。
效能測試驗證了架構改進。與PERC975系列相比,H88i的順序讀取頻寬提升了318%,順序寫入頻寬提升了12%。尖峰吞吐量達103 GB/s,IOPS達25.2萬次,充分展現了此控制器處理資料密集型工作負載的能力。此外,重建時間從每TB超過80分鐘縮短至每TB僅需10分鐘,同時在復原作業中維持接近生產等級的效能水準。
H975i 的 PCIe Gen5 x16 介面和前端整合設計支援密集 GPU 部署,避免儲存爭用,從而在多加速器配置中實現可預測的效能擴充。許多 PowerEdge 伺服器同時提供 H965i 和 H975i RAID 控制器,因此,對於利用新興工作負載的組織來說,毫無疑問地應該選擇較新的產品。如果您正在大規模部署 AI 基礎架構,H975i 可提供必要的高頻寬、低延遲儲存基礎,從而最大限度地提高運算資源利用率。





Amazon