在生成式人工智慧時代,產生的數據比以往任何時候都多。 Solidigm 為現代人工智慧工廠的許多挑戰提供了解決方案。
眾所周知,我們喜歡 Solidigm 61.44TB U.2 NVMe SSD 的高密度。我們進行了大量的耐力和表現測試,取得了科學發現,並將世界紀錄計算推向了新的非凡高度。因此,隨著 AI 熱潮在我們周圍以極快的速度興起,下一個合乎邏輯的步驟是看看 Solidigm NVMe 驅動器如何在 AI 2024 的動態世界中發揮作用。
了解極限儲存密度的好處
Solidigm 的 61.44TB QLC SSD 以其卓越的儲存容量而脫穎而出,使資料中心能夠將更多的儲存空間裝入更少的磁碟機中。這種極端的密度在人工智慧伺服器中尤其有利,其中資料集呈指數級增長,高效的儲存解決方案至關重要。使用這些大容量 SSD,資料中心可以減少實體驅動器數量、減少佔地面積、降低功耗並簡化維護。
顯示 Solidigm SSD 的 Lenovo ThinkSystem SR675 V3 前視圖
GPU 伺服器中的 PCIe 通道有限
現代 GPU 伺服器面臨的主要挑戰之一是 GPU 獲得份額後可用的 PCIe 通道數量有限。 GPU 對於 AI 工作負載至關重要,需要大量 PCIe 頻寬,通常為其他元件(包括儲存裝置和網路)留下有限的通道。這項限制使得優化可用 PCIe 通道的使用變得至關重要。 Solidigm 的 61.44TB QLC SSD 提供了一種解決方案,在單一硬碟中提供大量儲存容量,減少對多個磁碟機的需求,並為 GPU 和其他重要元件保留 PCIe 通道。
Lenovo ThinkSystem SR675 V3 磁碟機機殼內部頂部視圖
AI 工作負載和儲存需求
人工智慧工作負載可大致分為三個階段:資料準備、訓練和微調以及推理。每個階段都有獨特的儲存需求,Solidigm 的大容量 SSD 可以顯著提高這些階段的效能和效率。部署高容量 QLC 驅動器(例如 Solidigm D5-P5336)有利於所有 AI 工作負載。大多數好處涵蓋從資料準備到訓練、微調到推理。
資料準備
資料準備是任何人工智慧專案的基礎,涉及資料收集、清理、轉換和增強。此階段需要大量存儲,因為原始資料集可能非常龐大。 Solidigm 的 61.44TB QLC SSD 可以儲存大量原始數據,而不會影響效能。此外,這些 SSD 的高順序讀寫速度可確保快速存取數據,從而加速準備過程。對於資料準備,Soidigm 61.44TB QLC SSD 滿足上述所有要求,具有以下優勢:
- 海量儲存容量: 高效處理大型資料集。
- 高順序速度: 快速資料存取和處理。
- 減少延遲: 最大限度地減少資料檢索延遲,提高工作流程效率。
訓練和微調
訓練人工智慧模型是一個密集的過程,涉及將大量資料集輸入神經網路以調整權重和偏差。此階段對運算要求較高,需要高 IOPS(每秒輸入/輸出操作數)和低延遲存儲,以跟上存儲和 GPU 之間的快速資料交換。 Solidigm 的 SSD 在這方面表現出色,提供高性能和耐用性。這些 SSD 的極高密度允許在訓練中使用更廣泛的資料集,從而有可能產生更準確的模型。為了滿足訓練和微調需求,Solidigm SSD 提供以下功能:
- 高 IOPS: 支援訓練所需的快速資料交換。
- 高耐用性: QLC 技術針對讀/寫密集型工作負載進行了最佳化,非常適合重複訓練週期。
- 可擴展性: 無需添加實體驅動器即可擴展存儲,從而保持 PCIe 通道的高效使用。
推理
經過訓練後,人工智慧模型將被部署以根據新數據進行預測或決策,即推理。此階段通常需要快速存取預處理的資料並有效處理增加的讀取請求。 Solidigm 的 61.44TB QLC SSD 提供必要的讀取效能和低延遲,以確保推理操作順利且快速地進行。 Solidigm SSD 具有以下優勢,超越了效能和低延遲:
- 快速讀取效能: 確保快速存取資料以進行即時推理。
- 低延遲: 對於需要立即回應的應用程式至關重要。
- 大容量: 有效率地儲存大量推理資料和歷史結果。
QLC 技術為推理應用程式提供了顯著的優勢,包括高儲存容量、成本效率、快速讀取速度、高效的 PCIe 利用、耐用性和改進的工作流程效率。這些優勢共同增強了推理任務的效能、可擴展性和成本效益,使 QLC 驅動器成為現代人工智慧和機器學習部署的理想選擇。
為什麼讓大儲存盡可能靠近 GPU 很重要?
對於人工智慧和機器學習,儲存與 GPU 的接近程度會顯著影響效能。設計人工智慧資料中心需要仔細考慮多種因素,以確保最佳的功能和效率。這就是為什麼擁有盡可能靠近 GPU 的大量儲存至關重要。正如我們最近所探索的那樣,對大型網路附加儲存解決方案的存取正開始形成單一工具,但單獨依賴它可能並不總是最佳選擇。
延遲和頻寬
將充足的儲存空間放置在靠近 GPU 的位置的主要原因是為了最小化延遲並最大化頻寬。 AI 工作負載,特別是在訓練期間,涉及儲存和 GPU 之間頻繁且大量的資料傳輸。高延遲可能會成為整個過程的瓶頸,從而減慢訓練時間並降低效率。
在人工智慧工作負載中,數據的快速可用性至關重要,低延遲可確保 GPU 及時接收數據,從而減少空閒時間並提高整體運算效率。在訓練階段,需要將大量資料不斷輸入GPU進行處理。透過最大限度地減少延遲,DAS 可確保滿足 AI 應用程式的高速需求,從而縮短訓練時間並提高工作流程效率。
Lenovo ThinkSystem SR675 V3 視圖 GPU 的內部視圖
資料吞吐量和 I/O 效能
本地 NVMe SSD 擅長處理每秒大量輸入/輸出操作 (IOPS),這對於 AI 工作負載的讀取/寫入密集型性質至關重要。在訓練階段,人工智慧模型需要快速存取大量資料儲存庫,因此需要能夠滿足資料交易高需求的儲存解決方案。
NVIDIA L40S GPU 的俯視圖
Solidigm D5-P5336 專為大容量、高效能場景而設計,可提供卓越的 IOPS,從而實現更快的資料檢索和寫入過程。此功能可確保 GPU 始終忙於計算而不是等待數據,從而最大限度地提高效率並減少訓練時間。本地 NVMe SSD 的高 IOPS 效能使其非常適合人工智慧應用的嚴苛環境,其中快速資料存取和處理對於獲得最佳效能至關重要。
數據管理
雖然在某些情況下,將足夠的儲存空間直接連接到 GPU 可以簡化資料管理,但這確實增加了必要的資料管理層以將資料暫存到 GPU 伺服器上。在完美的世界中,您的 GPU 正忙於運算,而您的 CPU 則連接到網路以保存檢查點或獲取新資料。 61.44TB Solidigm 硬碟有助於減少所需的資料交易數量。您也可以使用簡化的網路設定和分散式檔案系統來解決這個問題。這種簡單的方法可以簡化工作流程並減少與資料相關的錯誤或延遲的可能性。
聯想ThinkSystem SR675 V3前視圖
假設您在一台伺服器內工作,微調適合少量本地連接 GPU 的模型。在這種情況下,您可以利用本地儲存的優勢,它比網路儲存解決方案更易於設定和管理。配置、管理和維護網路連接儲存可能非常複雜且耗時,通常需要專業知識和額外的基礎架構。相比之下,NVMe SSD 等本地儲存解決方案更容易整合到現有伺服器設定中。
聯想ThinkSystem SR675 V3原理圖
這種配置和維護的簡單性使 IT 團隊能夠更專注於優化 AI 工作負載,而不是處理複雜的網路儲存管理。因此,使用本機 NVMe SSD 為 AI 應用程式部署和管理儲存變得更加簡單和有效率。
成本和可擴展性
雖然 NAS 解決方案可以透過添加更多儲存設備來橫向擴展,但它們也帶來與網路基礎架構和潛在效能瓶頸相關的成本。相反,投資大容量本地儲存可以立即提供效能優勢,而無需進行大量網路升級。
本地儲存解決方案通常比網路附加儲存系統 (NAS) 更具成本效益,因為它們不需要昂貴的網路硬體和複雜的配置。設定和維護 NAS 涉及網路設備(例如高速交換器和路由器)的大量投資,以及持續的網路管理和維護成本。
直接整合到伺服器中的大容量本地 SSD 用作臨時區域,減少了對額外基礎設施的需求。這種直接整合降低了硬體成本並簡化了設定過程,對於希望在不產生高額費用的情況下優化人工智慧工作負載的組織來說更加經濟實惠。
為了全面評估 AI 伺服器設定中的 Solidigm 61.44TB QLC SSD 的效能,我們將對 Lenovo ThinkSystem SR5336 V61.44 中安裝的四個 Solidigm P675 3TB SSD 陣列進行基準測試。此伺服器配置還包括一組四個 NVIDIA L40S GPU。用於此目的的基準測試工具是 GDSIO,這是一種專門用於測量 GPU 直接儲存 (GDS) 環境中的儲存效能的實用程式。我們研究了兩種配置:一個 GPU 到單一磁碟機效能,以及一個 GPU 到四個配置為 RAID0 的磁碟機。
配備四個 L675S GPU 的 Lenovo ThinkSystem SR3 V40 的頂視圖
和我們在一起。以下部分介紹了測試的細節以及它們如何模擬人工智慧管道的不同階段。
測試參數
基準測試過程涉及模擬人工智慧管道不同階段的各種測試參數。這些參數包括 io_sizes、threads 和 transfer_type,每個參數都被選擇來代表 AI 工作負載的特定方面。
1.IO大小:
- 4K、128K、256K、512K、1M、4M、16M、64M、128M: 這些不同的 I/O 大小有助於模擬不同的資料傳輸模式。較小的 I/O 大小(128K、256K、512K)模擬了頻繁存取小資料區塊的場景,通常在資料準備階段。較大的 I/O 大小(1M、4M、16M、64M、128M)表示在訓練和推理階段經常看到的批量資料傳輸,其中整個資料批次都會被移動。
2. 主題:
- 1、4、16、32: 線程的數量代表了資料存取的並發程度。單一執行緒測試基準效能,而較高的執行緒數(4、16、32)模擬更密集的平行資料處理活動,類似於同時處理多個資料流的大規模訓練會話期間發生的情況。
3. 轉帳類型:
- 儲存->GPU(GDS): 這種傳輸類型利用 GPU 直接儲存 (GDS),支援 SSD 和 GPU 之間的直接資料傳輸,繞過 CPU。此配置非常適合測試直接資料路徑的效率並最大限度地減少延遲,從而反映即時推理場景。
- 儲存->CPU->GPU: 這種傳統的資料傳輸路徑涉及將資料從儲存傳輸到 CPU,然後再傳輸到 GPU。此方法模擬了中間處理或快取可能發生在 CPU 層級的場景,這在資料準備階段是預期的。我們可以說,無論 GPU 供應商如何,該資料路徑都代表著效能。
- 儲存->PAGE_CACHE->CPU->GPU: 該路徑使用頁面快取進行資料傳輸,資料首先緩存在記憶體中,然後由 CPU 處理,然後傳輸到 GPU。此配置對於測試快取機制和記憶體頻寬對整體效能的影響非常有用,這在訓練期間可能會預處理和快取資料以提高效率時相關。同樣,我們可以認為無論 GPU 供應商如何,該資料路徑都代表效能。
模仿人工智慧管道階段
基準測試旨在反映人工智慧管道的不同階段,確保獲得的性能指標相關且全面。
數據準備:
- 輸入輸出尺寸: 較小(128K、256K、512K)
- 主題: 1,4
- 傳輸類型: “儲存->CPU->GPU”、“儲存->PAGE_CACHE->CPU->GPU”
- 目的: 評估 SSD 如何處理頻繁的小資料傳輸和 CPU 參與,這在資料攝取、清理和增強階段至關重要。
訓練和微調:
- 輸入輸出尺寸: 中型至大型(1M、4M、16M)
- 主題: 4,16,32
- 傳輸類型: “儲存->GPU (GDS)”、“儲存->CPU->GPU”
- 目的: 使用多個並發資料流評估高資料吞吐量條件下的效能,代表模型訓練和微調期間所需的密集資料處理。
推理:
- 輸入輸出尺寸: 大到超大(16M、64M、128M)和 4K
- 主題: 1,4,16
- 傳輸類型: 儲存->GPU (GDS)
- 目的: 測量直接、大規模資料傳輸到 GPU 的效率,這對於快速資料存取和最小延遲至關重要的即時推理應用程式至關重要。 4K 旨在查看發生的 RAG 資料庫搜尋。
透過改變這些參數並測試不同的配置,我們可以獲得Solidigm 61.44TB QLC SSD在高效能AI伺服器環境中的詳細效能概況,從而深入了解其對各種AI工作負載的適用性和最佳化。我們在幾週內運行了 1200 多次測試來檢查資料。
服務器配置
- 聯想ThinkSystem SR675 V3
- AMD EPYC 9254 24 核心處理器
- 6 個 64GB DDR5 384GB 總容量
- 4 個 NVIDIA L40S GPU
- 4 個 61.44TB Solidigm P5336 QLC NVMe SSD
- Ubuntu服務器22.04
- NVIDIA 驅動程式版本:535.171.04
- CUDA版本:12.2
聯想ThinkSystem SR675 V3前視圖
聯想ThinkSystem SR675 V3架構
基準測試結果
首先,讓我們看看訓練和推理類型的工作負荷。 GPU Direct 1024K IO 大小表示模型載入、載入到 GPU 的訓練資料以及圖像或視訊工作等其他大批量推理作業。
4驅動 | I / O類型 | 轉賬類型 | 線 | 資料集大小 (KiB) | IO 大小 (KiB) | 吞吐量(GiB/秒) | 平均延遲(微秒) |
---|---|---|---|---|---|---|---|
寫 | GPUD | 8 | 777,375,744 | 1024 | 12.31 | 634.55 | |
讀 | GPUD | 8 | 579,439,616 | 1024 | 9.30 | 840.37 | |
蘭德寫入 | GPUD | 8 | 751,927,296 | 1024 | 12.04 | 648.67 | |
蘭德瑞德 | GPUD | 8 | 653,832,192 | 1024 | 10.50 | 743.89 |
接下來,針對 RAG 類型工作負載,考慮更小的 IO 大小,例如對儲存在磁碟上的 RAG 資料庫進行快速隨機 4k 資料存取。對於推理工作負載需要以非順序方式存取資料的場景(例如推薦系統或搜尋應用程式),高效的隨機 I/O 是必要的。 RAID0 配置在順序和隨機操作方面表現出良好的效能,這對於涉及 RAG 等混合存取模式的 AI 應用程式至關重要。讀取延遲值非常低,尤其是在 GPUD
模式。
這裡選擇了 8 個工作線程,它們並未使 SSD 完全飽和,但提供了您在 RAG 類型工作負載中可能發現的更具代表性的快照。這提供了圍繞 GPU 角度的現成應用程式的上下文,具有有限的工作數量和更高的佇列深度,值得注意的是,這表明表上還有更多效能可以透過進一步的軟體最佳化來實現。
4驅動 | I / O類型 | 轉賬類型 | 線 | 資料集大小 (KiB) | IO 大小 (KiB) | 吞吐量(GiB/秒) | 平均延遲(微秒) |
---|---|---|---|---|---|---|---|
寫 | GPUD | 8 | 69,929,336 | 4 | 1.12 | 27.32 | |
讀 | GPUD | 8 | 37,096,856 | 4 | 0.59 | 51.52 | |
蘭德寫入 | GPUD | 8 | 57,083,336 | 4 | 0.91 | 33.42 | |
蘭德瑞德 | GPUD | 8 | 27,226,364 | 4 | 0.44 | 70.07 |
如果您因為不受支援的程式庫或 GPU 而不使用 GPU Direct,如果您在資料傳輸中使用 CPU,則這裡有這兩種類型。在這個特定的伺服器 Lenovo ThinkSystem SR675 V3 中,由於所有 PCIe 裝置都經過 CPU 根聯合體,因此我們看到了相當的頻寬,但延遲受到了影響。我們可以期待具有 PCIe 交換器的系統得到改進。
4驅動 | I / O類型 | 轉賬類型 | 線 | 資料集大小 (KiB) | IO 大小 (KiB) | 吞吐量(GiB/秒) | 平均延遲(微秒) |
---|---|---|---|---|---|---|---|
寫 | CPU_GPU | 8 | 767,126,528 | 1024 | 12.24 | 638.05 | |
讀 | CPU_GPU | 8 | 660,889,600 | 1024 | 10.58 | 738.75 | |
蘭德寫入 | CPU_GPU | 8 | 752,763,904 | 1024 | 12.02 | 649.76 | |
蘭德瑞德 | CPU_GPU | 8 | 656,329,728 | 1024 | 10.47 | 746.26 | |
寫 | CPU_GPU | 8 | 69,498,220 | 4 | 1.11 | 27.47 | |
讀 | CPU_GPU | 8 | 36,634,680 | 4 | 0.58 | 52.31 |
此表顯示讀取操作的高吞吐率,特別是在 GPUD
傳輸類型。例如,讀取操作 GPUD
模式最高可達 10.5 GiB/秒。這有利於人工智慧工作負載,通常需要快速存取資料來訓練大型模型。
隨機操作和順序操作之間的平衡效能使此配置適合推理任務,這些任務通常需要混合使用這些存取模式。雖然延遲值並不是極低,但對於許多推理應用程式來說仍然在可接受的範圍內。
此外,我們還看到了令人印象深刻的吞吐量,寫入操作高達 12.31 GiB/秒,讀取操作高達 9.30 GiB/秒。這種高吞吐量有利於需要快速資料存取以進行模型訓練和推理的人工智慧工作負載。
順序讀取和最佳化
轉向 128M IO 大小並迭代工作線程,我們可以看到最佳化儲存解決方案工作負載的結果。
轉賬類型 | 線 | 吞吐量(GiB/秒) | 延遲(微秒) |
---|---|---|---|
儲存->CPU->GPU | 16 | 25.134916 | 79528.88255 |
儲存->CPU->GPU | 4 | 25.134903 | 19887.66948 |
儲存->CPU->GPU | 32 | 25.12613 | 159296.2804 |
儲存->GPU (GDS) | 4 | 25.057484 | 19946.07198 |
儲存->GPU (GDS) | 16 | 25.044871 | 79770.6007 |
儲存->GPU (GDS) | 32 | 25.031055 | 159478.8246 |
儲存->PAGE_CACHE->CPU->GPU | 16 | 24.493948 | 109958.4447 |
儲存->PAGE_CACHE->CPU->GPU | 32 | 24.126103 | 291792.8345 |
儲存->GPU (GDS) | 1 | 23.305366 | 5362.611458 |
儲存->PAGE_CACHE->CPU->GPU | 4 | 21.906704 | 22815.52797 |
儲存->CPU->GPU | 1 | 15.27233 | 8182.667969 |
儲存->PAGE_CACHE->CPU->GPU | 1 | 6.016992 | 20760.22778 |
正確編寫任何與儲存互動的應用程式至關重要,並且需要考慮,因為企業希望最大化其 GPU 投資。
GPU直接
透過在所有測試中隔離 GPU Direct-only 效能,我們可以大致了解 NVIDIA 技術的優勢。
I / O類型 | 轉賬類型 | 線 | 資料集大小 (KiB) | IO 大小 (KiB) | 吞吐量(GiB/秒) | 平均延遲(微秒) |
---|---|---|---|---|---|---|
寫 | GPUD | 8 | 777,375,744 | 1024 | 12.31 | 634.55 |
讀 | GPUD | 8 | 579,439,616 | 1024 | 9.30 | 840.37 |
蘭德寫入 | GPUD | 8 | 751,927,296 | 1024 | 12.04 | 648.67 |
蘭德瑞德 | GPUD | 8 | 653,832,192 | 1024 | 10.50 | 743.89 |
寫 | GPUD | 8 | 69,929,336 | 4 | 1.12 | 27.32 |
讀 | GPUD | 8 | 37,096,856 | 4 | 0.59 | 51.52 |
蘭德寫入 | GPUD | 8 | 8,522,752 | 4 | 0.14 | 224.05 |
蘭德瑞德 | GPUD | 8 | 21,161,116 | 4 | 0.34 | 89.99 |
蘭德寫入 | GPUD | 8 | 57,083,336 | 4 | 0.91 | 33.42 |
蘭德瑞德 | GPUD | 8 | 27,226,364 | 4 | 0.44 | 70.07 |
關閉的思考
由於本文將重點放在 Solidigm 61.44TB P5336,因此讓我們退後一步,解決圍繞效能與容量的 TLC 與 QLC 爭論。當我們看看 Solidigm 產品組合中的其他產品時,例如使用 TLC 7D NAND 的 D3 系列,容量受到限制以換取效能。在我們的測試中,特別是使用 61.44TB Solidigm 硬碟時,我們發現整體吞吐量效能可以充分保持 GPU 以低延遲傳輸資料。我們收到 ODM 和 OEM 的回饋,認為需要越來越多的儲存空間盡可能靠近 GPU,而 Solidigm D5-P5336 硬碟似乎符合要求。由於 GPU 伺服器中可用的 NVMe 托架數量通常有限,因此密集的 Solidigm 硬碟位於本機 GPU 伺服器儲存清單的頂部。
最終,這些驅動器提供的海量儲存容量與 GPU 一起只是解決方案的一部分;他們仍然需要表現出色。一旦您匯總了多個驅動器上的單一驅動器性能,很明顯,即使對於要求最苛刻的任務,也可以提供足夠的吞吐量。在使用 GDSIO 的 4 碟機 RAID0 配置的情況下,寫入作業的總吞吐量可達 12.31XNUMX GiB/秒,而對於讀取操作,其總吞吐量可達 25.13 GiB/秒。
Lenovo ThinkSystem SR675 V3 GPU 後視圖
即使是最苛刻的人工智慧任務,這種吞吐量等級也綽綽有餘,例如在海量資料集上訓練大型深度學習模型或在高解析度視訊串流上運行即時推理。透過向 RAID0 陣列添加更多驅動器來擴展效能的能力使其成為快速高效的資料存取至關重要的 AI 應用程式的絕佳選擇。
然而,值得注意的是,RAID0 配置雖然提供高效能,但不提供任何資料冗餘。因此,必須實施適當的備份和資料保護策略,以防止磁碟機發生故障時遺失資料。
當今資料中心的另一個獨特考慮因素是電源。隨著人工智慧伺服器比以往任何時候都消耗更多的功率,並且沒有任何放緩的跡象,對於那些希望將 GPU 引入資料中心的人來說,可用的總功率是最大的瓶頸之一。這意味著我們更加重視盡可能節省每一瓦電量。如果您可以獲得每瓦更多 TB,我們會圍繞 TCO 和基礎設施成本進行一些有趣的思考過程。即使將這些磁碟機從 GPU 伺服器上移除並將它們放入機架規模的儲存伺服器中,也可以提供具有極高容量的巨大吞吐量。
將 Solidigm D5-P5336 61.44TB QLC SSD 與 NVMe 插槽有限的 AI 伺服器集成,代表著在解決現代 AI 工作負載的儲存挑戰方面取得了重大進步。其極高的密度、性能特徵和 TB/瓦特比使其成為資料準備、訓練和微調以及推理階段的理想選擇。透過優化 PCIe 通道的使用並提供大容量儲存解決方案,這些 SSD 使現代 AI 工廠能夠專注於開發和部署更複雜、更準確的模型,推動整個 AI 領域的創新。
本報告由 Solidigm 贊助。 本報告中表達的所有觀點和意見均基於我們對所考慮產品的公正看法。
參與 StorageReview
電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱