存儲評論網

GPU 速度的儲存:Graid SupremeRAID AE 的 AI 基準測試

企業  ◇  企業存儲

隨著 AI 基礎設施的發展,資料管道速度越來越快,範圍越來越廣,也越來越複雜。從訓練大型模型到大規模即時推理,儲存子系統對於確保 GPU 持續接收必要資料至關重要。隨著儲存在 AI 叢集中的重要性日益凸顯,各組織正在重新思考如何提供高吞吐量、可預測的效能和彈性,尤其是在資料遺失或停機不可接受的環境中。

使用的 Grad SupremeRAID AE 硬件

隨著人工智慧模型的規模持續呈指數級增長,這項挑戰變得更加嚴峻。現代大型語言模型和基礎模型需要頻繁設定檢查點以保持訓練進度。隨著模型規模從數十億個參數擴展到數萬億個參數,這些檢查點的儲存需求也隨之成長。這迫切需要能夠處理海量檢查點文件,同時保持極快讀寫效能的大型統一儲存命名空間。傳統的儲存架構難以同時滿足這些高要求工作負載所需的容量和速度。

目前的檢查點管理方法,例如將模型權重轉儲到 CPU 記憶體中以允許 GPU 繼續訓練的非同步檢查點,隨著模型的成長面臨巨大的限制。將這些檢查點暫時儲存在系統記憶體中變得越來越浪費且成本高昂,需要大量的 RAM,從而增加了系統成本和功耗。更重要的是,隨著模型規模的不斷擴大,這種方法可能會變得完全不切實際,因為需要暫時儲存在記憶體中的資料量非常大。

Graid Technology 推出了一種專門針對這些挑戰的新方法。基於早期解決方案中建立的軟體定義模型,例如 SupremeRAID SR1010,Graid 的新 SupremeRAID AE(AI版) 只需極少的基礎架構改動,即可將企業級 RAID 功能引入 AI 工作負載。 AE 並非採用專用硬體 RAID 卡或客製化設備,而是以軟體授權的形式提供,並且僅佔用現有 NVIDIA GPU 的一小部分資源。這意味著企業無需 1) 佔用額外的 PCIe 插槽,2) 進行基礎架構改造,3) 即可獲得企業級儲存效能和可靠性,而無需承受訓練和推理工作負載的 GPU 效能顯著影響。

關鍵要點

  • 大規模高性能: SupremeRAID AE 實現高達 183.60GB/s 的讀取吞吐量和高達 54.23GB/s 的寫入吞吐量,滿足苛刻的 AI 要求。
  • 最小 GPU 開銷: 在 GPU 密集型推理期間引入最小開銷(~4%),保持強大的整體系統效能。
  • 海量統一儲存命名空間: 每個陣列支援最多 32 個 NVMe SSD,在單一統一命名空間中提供近 1PB 的儲存。
  • 高階整合功能: 與 NVIDIA GPUDirect Storage 和領先的 AI 檔案系統(BeeGFS、Lustre、Ceph)完全整合。
  • 簡化的基礎設施: 消除專用 RAID 硬件,顯著降低複雜性、成本和營運開銷。

針對進階 AI 工作負載最佳化的儲存和彈性

SupremeRAID AE 單一陣列支援最多 32 個 NVMe SSD,並將它們聚合到統一的命名空間中。這種結構使 AI 工作負載能夠有效地存取大型資料集,同時保持彈性,這對於運行長期訓練作業的環境尤其重要。即使發生驅動器故障,陣列仍然可用,並保留檢查點進度。這種保護措施可最大限度地降低資料遺失或耗時重新啟動的風險,這對於管理大型模型或海量推理流程的團隊而言,是一項顯著的優勢。

SupremeRAID AE 的智慧資源管理功能為 AI 工作負載提供了額外的最佳化機會。雖然我們的測試顯示並發操作期間的開銷極小,但透過智慧調度可以進一步降低影響。檢查點操作通常不會與同一節點上的主動訓練同時運作;在檢查點階段,訓練通常會出現短暫的暫停。在這些間隔期間,SupremeRAID AE 可以利用其他未使用的 GPU 資源來加速檢查點的完成。

SupremeRAID AE 也支援 NVIDIA GPUDirect Storage。這實現了儲存和 GPU 記憶體之間的直接路徑,從而降低了延遲並提高了 I/O 效率。它與 BeeGFS、Lustre 和 Ceph 等以 AI 為中心的文件系統集成,並包含智慧型資料卸載功能以及用於自動化編排的 API。總而言之,SupremeRAID AE 提供了一種簡化但強大的方法,將 RAID 的優勢融入現代 AI 工作流程。

除了訓練工作負荷之外,SupremeRAID AE 還能滿足現代 AI 推理場景的關鍵需求。隨著企業規模化推理操作,他們越來越依賴諸如持久性鍵值快取管理、預填充-解碼優化和分層記憶體架構等高級策略。這些技術通常需要在鍵值快取超過 VRAM 容量時將其卸載到儲存中。 NVIDIA Dynamo、Red Hat 的 LLM-D 和 vLLM 生產堆疊等解決方案都整合了依賴快速、高容量儲存的分層鍵值快取整合。在這些場景中,擁有大型高效能儲存池對於維持低延遲推理至關重要,而 SupremeRAID AE 能夠提供大量容量和卓越速度,使其成為這些高階推理架構的理想基礎。

在本分析中,我們評估了在戴爾 PowerEdge R770 平台上運行的 SupremeRAID AE,該平台配備雙 NVIDIA H100 GPU 和 16 塊美光 6550 61.44TB Gen5 NVMe SSD。我們使用 GDSIO 和 FIO 工具探索 RAID 5 下的效能,並分析了 Graid AE 在即時 LLM 推理工作負載下如何影響 GPU 行為。目標是了解該解決方案如何整合到企業級 AI 環境中,在這種環境中,效能、容量、彈性和簡易性必須同時擴展。

數位內幕:SupremeRAID AE 效能深度解析

為了測試 Graid SupremeRAID AE 的效能,我們配置了一台戴爾 PowerEdge R770 計算機,該計算機配備雙 NVIDIA H100 GPU 和 16 個 E3.S 插槽(位於前端)。該系統基於英特爾最新的至強 6 平台構建,配備兩顆英特爾至強 6787P 處理器,每顆處理器擁有 86 個核心,可處理 AI、HPC 和數據密集型環境中的高度並行工作負載。

R770 配置 16 個 E3.S 托架,儲存部分則全系搭載美光 6550 ION 61.44TB Gen5 NVMe TLC SSD,旨在為各種工作負載提供一致的效能。美光 SSD 在卓越效能和大量容量之間實現了完美平衡,使 AI 工作負載能夠保持高吞吐量,同時大幅簡化 AI 基礎設施。只需 16 個硬碟即可提供 PB 級儲存空間,協助企業在單一伺服器內有效管理大量資料集和大規模模型檢查點,從而顯著降低複雜性和基礎設施開銷。

測試系統規格

  • 平台: 戴爾 PowerEdge R770
  • 中央處理器: 2 個 Intel Xeon 6787P(各 86 個核心)
  • 內存: 32x Micron 64 GB 雙列 DDR5 6400 MT/s 總記憶體:2TB
  • 網絡: 戴爾 BRCM 4P 25G SFP 57504S OCP 網路卡
  • GPU 1: NVIDIA H100(記憶體 80GB)
  • GPU 2:  NVIDIA H100NVL(記憶體 96GB)
  • 貯存: 16件¯x 61TB 美光 ION 6550 SSD(915TB RAID 5池)

作為本次效能測試的一部分,美光固態硬碟 (SSD) 使用 SupremeRAID AE 配置在單一 RAID 5 池中。選擇此佈局是為了評估 SupremeRAID AE 在需要高容量儲存的 AI 驅動環境中如何平衡效能和容錯能力。 RAID 5 將奇偶校驗分佈在所有磁碟機上,從而防止單一磁碟機發生故障,同時保持可用的儲存容量。

在深入效能測試之前,請務必注意在使用 Graid 測量儲存效能時 GDSIO 和 FIO 之間的差異。在我們先前對 Graid 效能的評估中,一個關鍵的觀察結果是,它沒有限制峰值頻寬的瓶頸(例如硬體 RAID 卡)。硬體 RAID 卡管理與其連接的儲存設備,而 PCIe 插槽可能會成為此過程中的瓶頸。 Graid 使用 GPU 進行 RAID 操作,但並非所有資料都需要透過 GPU。因此,GPU 不會限制頻寬。

FIO 儲存基準測試透過利用 CPU 存取儲存來衡量儲存效能,並且僅受儲存解決方案的限制。另一方面,GDSIO 衡量的是 GPU 直接儲存的效能,其中 GPU 可能是限制因素。例如,NVIDIA H100 具有 PCIe Gen5 x16 接口,能夠提供約 63GB/s 的輸入或輸出頻寬。在這種情況下討論 GPU 效能瓶頸時,問題在於 GPU 透過 GPU 直接儲存所能支援的頻寬,而不是 Graid 瓶頸。

NVIDIA GPU 直接存儲

我們在這個測試台上進行的測試之一是 Magnum IO GPU 直接儲存 (GDS) 測試。 GDS 是 NVIDIA 開發的功能,可讓 GPU 在存取儲存在 NVMe 磁碟機或其他高速儲存裝置上的資料時繞過 CPU。 GDS 不再透過 CPU 和系統記憶體來路由數據,而是實現了 GPU 和儲存設備之間的直接通信,從而顯著減少了延遲並提高了數據吞吐量。

GPU 直接儲存的工作原理

傳統上,當 GPU 處理儲存在 NVMe 磁碟機上的資料時,資料必須先經過 CPU 和系統內存,然後才能到達 GPU。此過程會引入瓶頸,因為 CPU 成為中間人,增加延遲並消耗寶貴的系統資源。 GPU 直接儲存使 GPU 能夠透過 PCIe 總線直接從儲存裝置存取數據,從而消除了這種低效率。這種直接路徑減少了與資料移動相關的開銷,從而實現更快、更有效率的資料傳輸。

人工智慧工作負載,尤其是涉及深度學習的工作負載,是高度資料密集的。訓練大型神經網路需要處理 TB 級的數據,資料傳輸中的任何延遲都可能導致 GPU 利用率不足和訓練時間更長。 GPU 直接儲存透過確保資料盡快傳輸到 GPU、最大限度地減少空閒時間並最大限度地提高運算效率來解決這一挑戰。

此外,GDS 對於涉及串流大型資料集的工作負載特別有利,例如視訊處理、自然語言處理或即時推理。透過減少對 CPU 的依賴,GDS 可以加速資料移動並釋放 CPU 資源用於其他任務,從而進一步增強整體系統效能。

GDSIO 16 驅動器隨機讀取吞吐量

在深入研究效能資料之前,必須注意的是,GDSIO 資料讀寫效能的限制因素是 GPU。該測試旨在衡量 GPU 所能提供的最大儲存效能。最終,您會在 PCIe 插槽中遇到瓶頸,對於 PCIe Gen5 x16 來說,速度約為 63GB/s。

在 GDSIO 隨機讀取吞吐量方面,該陣列在區塊大小和線程數較大的情況下表現出色,但在低階效能擴展方面卻舉步維艱。在 16K/128 執行緒下,吞吐量開始明顯提升,達到 7.3GiB/s,但真正的吞吐量加速直到 32K 以上才真正顯現,陣列在 15.5 執行緒下達到 64GiB/s。在 64K 下,吞吐量顯著提升,攀升至 25.9GiB/s;128K 下,效能進一步提升,在 41.3 執行緒下達到 64GiB/s,並在 40 執行緒下保持 128GiB/s 以上。在區塊大小為 1M、執行緒數為 32 執行緒下,吞吐量達到峰值,陣列達到 88.5GiB/s,並在最高執行緒數下保持這一水準。

 

GDSIO 16 驅動器隨機讀取延遲

繼吞吐量結果之後,陣列的隨機讀取延遲曲線反映了先前觀察到的擴展行為。在所有區塊大小和執行緒數(最多 16 個執行緒)下,延遲都保持在極低的水平,對於 0.1K 以下的所有區塊,延遲值都保持在 128 毫秒以下。即使是更大的區塊,例如 128K,也保持在 0.13 毫秒到 0.20 毫秒左右。然而,超過 16 個線程後,延遲明顯增加。在 16k/32 執行緒下,延遲繼續上升,最終在 980 個執行緒時達到 128 毫秒。同樣,吞吐量最高的 1M 讀取從單執行緒的 0.242 毫秒上升到 2.892 執行緒時的 128 毫秒。所有大小的延遲趨勢一致,在中等並發性下延遲保持平穩,但隨著執行緒數超過 32,延遲急劇上升,尤其是在區塊大小較大的情況下。

 

GDSIO 16 驅動器隨機寫入吞吐量

談到 GDSIO 寫入吞吐量,該陣列在較大區塊大小下再次展現出強勁性能,但與讀取相比,整體擴展速度較為緩慢。從 32K 開始,效能提升更為顯著,吞吐量超過 5.9GiB/s,尤其是在 64 執行緒及以上,512K 和 1M 區塊在高執行緒數下仍能持續提升。在 64 執行緒及以上,512K 寫入速度達到 25.4GiB/s,1M 寫入速度達到峰值 38.4GiB/s;而在 128 執行緒下,1M 寫入速度持續擴展至 45.9GiB/s 的最高峰值。 512K 和 128K 塊大小在高併發性下也保持穩定,分別穩定在 26.2GiB/s 和 8.0GiB/s 左右。

 

GDSIO 16 驅動器隨機寫入延遲

隨著寫入吞吐量的強勁提升,隨著區塊大小和執行緒數的增加,陣列隨機寫入的延遲曲線也呈現穩定上升趨勢。即使在執行緒數較低的情況下,寫入延遲也明顯高於讀取延遲,從 0.367 毫秒開始,隨著區塊大小的增加而攀升,在 1.222M 時達到 1 毫秒。隨著並發性的增加,延遲逐漸上升至 16 個線程,然後加速更為顯著。在 64 個執行緒時,寫入延遲達到 0.663 毫秒,而 1M 寫入延遲則上升至 3.255 毫秒。到了 128 個和 256 個執行緒時,延遲顯著增加,尤其是在區塊大小較大的情況下。例如,在 512 個執行緒時,4.770K 寫入延遲達到 128 毫秒,而 512K 和 1M 寫入延遲均超過 5 毫秒,在 5.436M 時達到最高 1 毫秒。

 

菲奧 性能基準

接下來,我們來測量單一 RAID5 池中的 FIO 效能。雖然 GDSIO 最終取決於系統中安裝的 GPU 的效能及其 PCIe 頻寬,但 FIO 可以根據 SSD 的效能以及 RAID 解決方案本身的效能而提升。

整個陣列經過一致的測試流程,首先是預處理階段,包含兩次使用順序寫入工作負載的全卷填充,然後是順序和隨機工作負載。這可確保驅動器在性能測量開始前達到穩定狀態。

對於每種新的工作負載類型,我們使用相應的傳輸大小重新啟動預處理,以保持結果的準確性和一致性。

本節重點在於應用於 Graid 16 SSD RAID 5 陣列的以下隨機寫入/讀取 FIO 基準:

  • 1M 隨機寫入/讀取
  • 64K 隨機寫入/讀取
  • 16K 隨機寫入/讀取
  • 4K 隨機寫入/讀取

1M隨機讀寫頻寬

轉向隨機 1M 操作,讀取頻寬在效能曲線上領先,在 183.60 的 IO 深度和 16 個作業的情況下達到峰值 172GB/s,這是測試中最激進的配置。在 8/172 和 4/172 的配置下也記錄了類似的高吞吐量結果,兩者都超過了 182GB/s,這凸顯了該陣列隨著作業數量和深度的增加而擴展的能力。即使是 4/86 和 16/43 這樣的中階配置也保持強勁,維持在 147GB/s 以上,在不同並發等級下均表現出一致的讀取效能。轉換到寫入,隨機 1M 頻寬在 54.233/8 時達到峰值 172GB/s,在 53.77/2 時達到幾乎相同的 86GB/s,驗證了並行工作負載下高效的寫入擴展能力。在 1/43 和 2/43 等較低線程組合中,性能平穩下降,分別產生 24.88GB/s 和 42.48GB/s,即使在中等並發水平下仍然反映出強烈的飽和曲線。

1M 隨機讀取/寫入延遲

在整個測試範圍內,讀取延遲始終保持可控。在 0.714/2 和 86/4 的配置下,觀察到的最低延遲均為 86 毫秒,而更高深度的負載(例如 8/172 和 4/172)則保持在 2 毫秒以下。產生最高讀取吞吐量的配置(16/172)也伴隨著最高延遲,達到 7.516 毫秒——這顯然是一種權衡,因為更深的佇列會增加回應時間。在寫入方面,延遲也遵循類似的模式。 1.727/1 的配置測得的最低寫入延遲為 43 毫秒。 2/86 的配置實現了吞吐量和延遲之間的良好平衡,延遲為 3.197 毫秒。更高並發選項(例如 8/43)的延遲為 6.389 毫秒,而 16/172 的配置雖然提供了峰值寫入效能,但最高延遲為 50.741 毫秒,這突顯了極端深度下吞吐量和響應速度之間常見的反比關係。

64K 隨機讀/寫頻寬

切換到隨機 64K 操作後,讀取頻寬顯著提升,佇列深度和作業數量也隨之增加,在 91.65 IO 深度下,作業數量為 32 個,峰值達到 172GB/s。其他幾種配置緊隨其後,包括 16/172 的 83.59GB/s 和 32/86 的 82.85GB/s,突顯了隨著工作負載的擴展,效能持續提升。 8/172 和 16/86 等中階配置在 78GB/s 到 79GB/s 之間保持了強勁的效能。相較之下,1/43 和 1/172 等並發性較低的組合產生的吞吐量水準有所降低,範圍從 21.89GB/s 到 42.63GB/s,這表明陣列對並行性的依賴才能實現峰值效能。在寫入方面,64K 隨機頻寬在 6.44/32 的配置下達到 86GB/s 的峰值。其他效能最佳的配置,包括 32/172 和 16/86,表現非常接近,分別為 6.41GB/s 和 6.36GB/s。大多數測試點集中在 6.3GB/s 和 6.4GB/s 之間,在不同隊列深度下表現出穩定的一致性。輕量級配置(例如 1/43)的寫入效能最低,僅為 3.83GB/s,這仍然反映了在較高工作負載下效能逐漸提升的趨勢。

64K 隨機讀取/寫入延遲

在大多數測試案例中,隨機 64K 讀取延遲始終保持較低水準。最低延遲為 0.123/1 的 43 毫秒,其次是 0.175/1 的 86 毫秒。隨著吞吐量的提升,延遲保持在可控範圍內:4/172 的延遲為 0.666 毫秒,而 16/172 的延遲達到了 2.057 毫秒。即使在更重的負載條件下,反應速度依然高效,32/86 的延遲為 2.076 毫秒,儘管其頻寬測試結果名列前茅。在寫入方面,延遲隨深度和作業數量的增加而急劇變化。最低延遲來自 2/43,為 0.887 毫秒,4/43 和 2/86 的延遲緊隨其後,分別為 1.694 毫秒和 1.697 毫秒。較重的配置顯示出反應時間權衡的明顯跡象:8/172 記錄為 13.445 毫秒,16/172 攀升至 26.862 毫秒,32/172 達到峰值 63.201 毫秒,強調了隨著工作負載的增加,排隊開銷也隨之增加。

16K 隨機讀/寫 IOPS

即使在峰值 IOPS 下,隨機 16K 讀取延遲也保持較低水準。反應速度最快的配置是輕量配置,1/43 的延遲僅為 0.087 毫秒,1/86 的延遲為 0.114 毫秒。較高併發度的組合,例如 4/86 和 8/86,延遲分別為 0.236 毫秒和 0.420 毫秒。即使是性能最高的配置也保持了合理的延遲,16/172 的延遲為 1.143 毫秒,32/172 的延遲達到 2.372 毫秒,這證明了其高效的擴展能力,並且對響應時間的影響可控。對於隨機 16K 寫入,最低延遲記錄在 2/43 的延遲為 0.848 毫秒,其次是 1.253/4 的延遲為 43 毫秒,以及 1.415/1 的延遲為 43 毫秒。隨著深度和作業數量的增加,延遲逐漸上升:8/172 達到 5.574ms,而 16/172 和 32/172 分別攀升至 10.455ms 和 22.958ms,突顯了隨著隊列飽和度增加而出現的預期權衡。

16K 隨機讀取/寫入延遲

隨機 16K 讀取延遲始終保持低位。反應最快的配置是 1/43,延遲為 0.123 毫秒,緊隨其後的是 1/86,延遲為 0.175 毫秒。即使在最大壓力下,32/172 和 16/172 等配置也能將延遲保持在 2.1 毫秒以下,這表明陣列在處理高 IOPS 的同時仍能保持快速的響應時間。相較之下,隨機 16K 寫入延遲的差異較大。最低延遲為 0.496/1 的 43 毫秒,其他高效運作(例如 2/86 和 4/43)也保持在 1 毫秒以下。隨著並發性和深度的增加,延遲也相應增加:16/172 的延遲為 7.017 毫秒,32/172 的延遲達到 17.246 毫秒,這進一步證實了在最大飽和度下峰值吞吐量和響應速度之間的預期權衡。

4K 隨機讀/寫 IOPS

在更高的並發負載下,隨機 4K 讀取 IOPS 在 IO 深度 10.77 和 32 個作業下達到了令人印象深刻的 344 萬 IOPS 峰值。其他配置緊隨其後,包括 16/344 (10.52M)、4/344 (10.51M) 和 8/344 (10.42M),均展現出卓越的擴展性以及積極的隊列和作業深度組合。即使是 8/172 和 16/172 等較低深度的選項也能在 5.23M 到 5.35M IOPS 之間保持強勁的吞吐量,進一步凸顯了該陣列處理高要求並行工作負載的能力。在寫入方面,4K IOPS 在 987.9/32 的配置下達到了 172K 的峰值。類似的高效配置包括 32K 的 86/985.1 陣列、16K 的 172/985.6 陣列以及 8K 的 172/976.9 陣列。從 8/86 到 16/86 的其他組合在 875K 到 977K 的範圍內保持了性能,從而增強了陣列在並發寫入操作完全飽和時的一致性和可靠性。

4K 隨機讀取/寫入延遲

隨機 4K 讀取延遲全面保持極低。最快的反應時間為 0.084 毫秒(1/86),其他幾種配置(包括 1/43、2/43 和 4/43)均低於 0.12 毫秒。即使在 IOPS 峰值下,延遲也保持良好控制,效能最高的 32/344 配置僅為 1.142 毫秒。這反映出即使在陣列達到最大吞吐量潛力時,其響應速度也非常出色。在寫入方面,隨機 4K 延遲也得到了良好的控制。記錄的最低值為 0.352 毫秒(1/43),而其他高效配置(例如 1/86、2/43 和 4/43)均保持在 0.6 毫秒以下。 32/172 和 32/86 等高吞吐量配置的延遲適度上升至 2.79ms 至 5.87ms 之間,考慮到持續的寫入飽和度,這仍處於可接受的範圍內。

 

測量 Grid SupremeRAID AE GPU 開銷

在檢視 Graid 的 SupremeRAID AE 儲存效能指標時,必須考慮共享 GPU 資源的 SupremeRAID 會如何影響同樣使用這些 GPU 的工作負載。在過去的 SupremeRAID 部署中,系統中的 GPU 專用於 Graid。使用此解決方案,您可以將其部署在已經包含 GPU 的平台上,Graid 可以利用這些 GPU 並共享資源。為了衡量開銷影響,我們使用 vLLM 建立了 LLM 推理場景。我們在 Graid 空閒時測量了工作負載的基準效能,然後再次測量了 Graid 在 RAID 172 池中讀取 5GB 資料的情況。這模擬了推理工作負載,在一個工作負載運行時預先分配下一個工作負載。由於 vLLM 將 GPU 的利用率推至 100%,任何 Graid 操作都會影響令牌速率和延遲。

對於 AI 工作負載,我們使用 Llama 3.3 70B 模型,以全精度 (BF16) 和 16K KV 快取大小,透過 vLLM 進行推理。這幾乎完全利用了兩張卡上的 VRAM(78G 卡上為 80G,86G 卡上為 94G)。然後,我們執行 vLLM 的基準測試腳本,最大輸出長度為 256 個令牌。每次測試執行 256 個查詢,最大並發量為 32 個請求,利用連續批次來模擬真實的請求模式。我們收集的指標包括 Tok/s、第一個令牌時間 (TTFT)、每個輸出令牌時間 (TPOT) 和令牌間延遲 (ITL)。我們在推理測驗期間啟動的 FIO 工作負載包括 172 個 16K 隨機讀取作業,每個作業讀取 1GB 資料。

吞吐量整體略有下降。請求吞吐量從每秒 1.86 個請求下降到 1.78 個請求,下降了 4.3%。輸出令牌吞吐量從每秒 225.44 個令牌下降到 215.94 個令牌,下降了 4.2%。總令牌吞吐量從每秒 2029.77 個令牌下降到 1944.30 個令牌,同樣下降了 4.2%。這表明轉移操作引入了一些開銷,對效能產生了輕微影響。

延遲指標結果喜憂參半。平均TTFT增加了3.6%,從6,704毫秒增加到6,945毫秒,而中位數TTFT增加了1.5%。值得注意的是,P99 TTFT有所改善,從2.8毫秒下降到14,199毫秒,下降了13,803%,這表明該指標的尾端性能有所提升。對於TPOT,平均值增加了5.3%,而中位數則相對持平,僅增加了0.65%。然而,P99 TPOT卻急劇上升了24.6%,從127.69毫秒增加到159.15毫秒,這表明最壞情況下的令牌生成時間受到了顯著影響。令牌間延遲 (ITL) 也呈現類似的趨勢,平均值增加了5.1%,中位數基本上保持不變,而P99則增加了2.2%。

Graid 的 SupremeRAID AE 與我們的 vLLM 工作負載同時運行,導致吞吐量略有下降(約 4%),但持續下降,平均延遲略有增加,令牌產生的 P99 效能也明顯下降。儘管有這些影響,系統仍然保持完全穩定和反應能力,這表明使用大型模型(例如 Llama 3.3 70B)進行高並發推理,在 Graid SupremeRAID AE 的幫助下,仍然可以穩定運行。

指標(持續時間越短/tok/s 越高越好) Baseline 具有 172GB FIO 讀取操作
成功的請求 256 256
基準持續時間(秒) 137.68 143.73
總輸入令牌 248,414 248,414
代幣總生成量 31,037 31,037
請求吞吐量(req/s) 1.86 1.78
輸出令牌吞吐量(tok/s) 225.44 215.94
總令牌吞吐量(tok/s) 2029.77 1944.30
第一個令牌的時間(TTFT)(延遲越低越好)
平均TTFT(毫秒) 6,704.43 6,945.72
中位TTFT(毫秒) 6,469.88 6,569.80
P99 TTFT(毫秒) 14,199.21 13,803.62
每個輸出令牌的時間(TPOT,不包括第一個令牌)(延遲越低越好)
平均 TPOT(毫秒) 81.44 85.72
中位數 TPOT(毫秒) 80.38 80.90
P99 TPOT(毫秒) 127.69 159.15
令牌間延遲(ITL)(延遲越低越好)
平均 ITL(毫秒) 79.94 83.99
中位 ITL(毫秒) 49.75 49.78
P99 ITL(毫秒) 539.07 550.73

關閉的思考

Graid SupremeRAID AE 為建置或擴展 AI 基礎架構的組織提供實用且高效的解決方案。 SupremeRAID AE 透過使用 GPU 驅動的軟體定義方法取代傳統的硬體 RAID,簡化了部署,同時消除了阻礙現代 AI 工作流程的常見瓶頸。

我們的測試展示了它能夠將多達 32 個 NVMe SSD 統一到一個彈性命名空間的能力,並在一台伺服器中提供近 1PB 的容量,並具有卓越的性能。峰值讀取吞吐量高達 183GB/s,寫入吞吐量高達 54GB/s,再加上實時推理期間極低的 GPU 開銷,證明了它能夠滿足大規模模型檢查點和低延遲大規模推理的雙重需求。

SupremeRAID AE 消除了專用 RAID 硬體的成本和複雜性,同時與 NVIDIA GPUDirect Storage 和 AI 專用檔案系統等技術無縫集成,打造了面向未來的儲存基礎。對於專注於簡化推理和降低營運風險的組織,SupremeRAID AE 可提供生產 AI 環境所需的效能、簡單性和彈性。

SupremeRAID AE

參與 StorageReview

電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS訂閱

迪倫多爾蒂

K-12 網路管理員,精通思科網路、IP 安全性和 NAC 解決方案。 UniFi 愛好者和家庭實驗室人員,測試和審查網路和安全產品。