Pliops XDP LightningAI 透過卸載 KV 快取來增強 LLM 推理,並透過 NVIDIA Dynamo 整合實現更快、可擴展的 AI。
Pliops 處於資料加速領域的前沿,專注於提供硬體和軟體解決方案,以優化和增強雲端和企業資料中心內的資料密集型工作負載。 Pliops Extreme Data Processor (XDP) 旨在透過管理應用程式和儲存之間的資料流、消除瓶頸和減少延遲來提高現代資料基礎架構的效能和效率。 XDP 非常適合需要高吞吐量和最小延遲的嚴苛環境,例如支援 AI、複雜資料庫、進階分析和廣泛的大規模儲存系統的環境。
隨著人工智慧日益成為業務營運和創新的基石,對資料中心基礎設施的需求呈指數級增長,尤其是對於人工智慧推理工作負載。這些工作負載需要快速且有效率地處理大量數據,這給現有的運算和儲存資源帶來了巨大的壓力。各組織正在努力應對日益嚴峻的挑戰,部署可擴展、經濟高效且節能的基礎設施,以始終如一地滿足嚴格的性能 SLA。
Pliops XDP LightningAI 正面解決了這些緊迫的挑戰。這項創新解決方案引進了一種通用儲存加速引擎,旨在與 領先的伺服器平台,例如 Dell PowerEdge 系統,並與先進的推理解決方案協同工作,例如 NVIDIA Dynamo,可望實現高效的AI營運。
為什麼 KV 快取對於可擴展的 LLM 推理至關重要
KV 快取的機制和重要性
優化基於 Transformer 的大型語言模型的核心是 KV 緩存,這是一種減輕自回歸推理過程中計算冗餘的基礎技術。在 Transformer 架構中,產生每個新標記都需要計算目前標記的查詢與所有先前標記的鍵和值之間的注意力。
如果沒有有效的快取機制,這個過程就會在每個生成步驟中重複地重新計算序列中每個標記的鍵和值。對於長度為 n 的序列,這導致計算複雜度為 O(n²) 或二次複雜度。 KV 快取透過將先前標記的計算鍵和值矩陣直接儲存在 GPU 記憶體中來避免這種情況;模型可以在後續步驟中重複使用這些預先計算的張量。這種重用大大降低了初始令牌處理後的計算複雜度至 O(n),從而顯著加快了推理速度。
這種效率的提升對於即時人工智慧應用(例如互動式聊天機器人、即時翻譯服務和動態程式碼產生)至關重要,因為延遲是直接影響用戶體驗和應用程式可行性的關鍵因素。
GPU 記憶體限制:隱藏的瓶頸
雖然 KV 快取大大提高了推理速度,但它給 GPU 記憶體資源帶來了壓力。 KV 快取的大小隨著序列長度(上下文視窗)和批次大小(並發請求數)線性增長。
在多租戶雲端環境或企業系統中,處理數百甚至數千個並發請求,這種記憶體消耗甚至會迅速耗盡最高階的 GPU 基礎架構。這種疲憊迫使人們做出艱難的權衡:減少批量大小(降低吞吐量)、縮短上下文長度或投資更多 GPU(增加資本支出)。
此外,推理提供者的常見做法是不在用戶回合或訊息之間保留 KV 快取。這意味著,對於先前計算的標記,每次後續互動都會重新產生二次計算複雜度,從而抵消一些潛在的效率提升。
NVIDIA Dynamo:重新思考大規模 LLM 推理
什麼是 NVIDIA Dynamo?
NVIDIA Dynamo 是一個最近發布的變革性開源框架,旨在解決分散式和分解式 LLM 推理服務的複雜挑戰。 Dynamo 支援各種後端,包括 PyTorch、SGLang、TensorRT-LLM 和 vLLM,專門設計用於將推理操作從單 GPU 部署無縫擴展到千 GPU 叢集。它引入了重大的架構創新來對抗 KV 快取造成的記憶體限制,同時優化最大吞吐量和最小延遲。
分解式服務架構
NVIDIA Dynamo 的核心創新是其分解服務方法。該架構從策略上將計算密集型的預填階段與記憶體綁定的解碼階段(產生後續令牌)分開。透過將這些不同的階段智慧地分配給單獨的專用 GPU 池,Dynamo 可以對每個階段進行獨立最佳化,從而提高資源利用效率並提高整體效能。
KV 緩存的改進
NVIDIA Dynamo 也採用了複雜的 KV Cache 管理功能。其 KV Cache-Aware 智慧型路由器可追蹤整個 GPU 叢集中 KV 快取資料的狀態和位置。這使得它能夠智慧地將傳入的推理請求路由到具有相關快取條目的 GPU,從而最大限度地減少昂貴的重新計算和資料傳輸開銷。
此外,Dynamo 分散式 KV 快取管理器透過實作分層卸載直接解決記憶體容量限制問題。此功能允許將存取頻率較低或優先順序較低的 KV 快取區塊從昂貴、快速的 HBM 移動到更具成本效益的儲存解決方案,例如共享 CPU 記憶體、本地 SSD 或網路物件儲存。這種分層儲存方法使組織能夠以極低的成本管理和儲存大量 KV 快取數據,從而提高推理效能和經濟效率。
需要澄清的是,截至目前,上述 KV 快取卸載功能是 Dynamo 的一部分 未來路線圖 並且在開源版本中尚未提供。因此,目前的開源 Dynamo 部署不支援 KV 快取卸載到分層儲存。這意味著,實際上,Dynamo 的效能仍然受到可用 GPU 記憶體的限制。
Pliops XDP LightningAI:大規模解決 KV 快取問題
輸入 Pliops XDP LightningAI,它建立了一個超快速、可擴展、PB 級記憶體層,該層策略性地位於 GPU 的 HBM 下方。這解決了組織在批量大小、上下文長度、模型複雜性和不斷上升的硬體成本之間的關鍵權衡。 Pliops 解決方案結合了其尖端的 XDP-PRO ASIC 和 KVIO Store。它使 GPU 伺服器能夠有效地將大量 KV 快取資料卸載到經濟高效的 NVMe SSD 儲存中,同時保持極低的亞毫秒級存取延遲。
在實際部署中,利用 Pliops XDP LightningAI 進行 KV 快取卸載可實現 實質上 沒有明顯的區別 與整個 KV 快取保留在稀缺且昂貴的 HBM 中的場景相比,TTFT(第一個令牌時間)。這使得組織能夠大幅擴展其用於 KV 快取的有效記憶體容量,同時又不影響即時 AI 應用程式所需的關鍵低延遲效能。
透過基於標準的設計實現無縫集成
Pliops XDP LightningAI 的一個優點是它使用開放標準,確保輕鬆採用。此解決方案的 NVMe-oF 原生架構保證與現有 GPU 伺服器生態系統的廣泛相容性,無需對伺服器進行硬體修改即可部署。它利用 RDMA 上的標準 NVMe-oF 實現跨 GPU 叢集的高速、低延遲快取同步。這利用了現有的資料中心網路基礎設施,簡化了部署並減少了整合摩擦。
Pliops 透過由兩種互補技術建構的緊密結合的解決方案實現了這一目標:XDP LightningAI 和 FusIOnX。雖然這些組件作為整體架構的一部分協同工作,但它們發揮著不同的作用。 Pliops XDP LightningAI 解決方案圍繞著專用硬體設備構建,該設備具有由定制 XDP ASIC 和一系列 SSD 供電的 PCIe 附加卡。
另一方面,FusIOnX 是一個補充軟體平台,用於協調和管理 XDP LightningAI 硬體的智慧使用。它是一個分解的 KV 快取卸載系統,透過儲存和重複使用先前計算的 KV 快取來消除冗餘計算。 FusIOnX 提供智慧來識別、儲存和有效檢索原本需要重新計算的上下文數據,從而加速 LLM 推理。該軟體堆疊提供針對不同部署場景的多種配置,包括跨多個 GPU 節點智慧路由並與 Dynamo 和 SGLang 等框架整合的 vLLM 生產堆疊。
Pliops LightningAI FusIOnX 架構
系統架構建立在包含 GPU 的啟動器節點和 LightningAI 目標節點之上,負責將 KV 快取卸載到高效能儲存。這些節點使用 DPU 的標準 NIC 透過利用 NVMe-oF 協定的高速網路進行通訊。
深入資料流,Nvidia Dynamo 工作器與 GPU 伺服器上應用程式容器內的 FusIOnX 用戶端 SDK 進行互動。然後,此 SDK 可透過 DPU 或標準 NIC 透過 NVMe-oF 與託管 FusIOnX KV Store 和 Pliops XDP Pro1 加速卡的 XDP LightningAI 儲存伺服器進行通訊。
LightningAI 與 NVIDIA Dynamo 的結合:效能基準測試
FusIOnX-Dynamo 整合基準測試表明,多種配置均實現了顯著的效能提升。測試使用張量並行度為 3.1(TP70)的 Meta-Llama-8-2B-Instruct-FP2-dynamic 模型進行。
測試配置
- 發起方(GPU 伺服器): Dell PowerEdge XE9680 伺服器,配置為:
- GPU: 8 個 NVIDIA H100 SXM,每個配備 80GB HBM3
- 內存: 2TB
- 中央處理器: 雙插槽英特爾至強鉑金 8568Y+ 處理器
- 網絡: 2 個 NVIDIA ConnectX-7 適配器(400Gbps)
- 目標(Pliops儲存伺服器): Dell PowerEdge R860 節點,配置為:
- 內存: 512GB
- 中央處理器: 四插槽英特爾至強金 6418H 處理器
- Pliops 加速度: 1 張 Pliops XDP Pro1 卡
- 貯存: 24 個三星 PM1733a 3.84TB NVMe SSD,為 KV 快取卸載提供大量原始容量
- 網絡: 1 張 NVIDIA ConnectX-7 HHHL 適配器卡(400GbE、單埠 OSFP、PCIe 5.0 x16)
- 網路互連: 這兩台伺服器透過 NVIDIA SN5600 Spectrum-X 800Gbps 乙太網路交換器連接,確保 NVMe-oF 流量的高頻寬和低延遲通訊。
測量的關鍵指標:
- 首次令牌時間(TTFT):使用者開始看到生成內容的速度有多快
- 每個輸出令牌的時間(TPOT):產生令牌之間的時間
- 每秒請求數 (RPS):系統吞吐量
- 每秒令牌數(TPS):生成速度
基準測試模擬了多輪對話,平均提示長度為 2,200 個標記,每輪有 100-230 個輸出標記,對話跨越 2-28 輪。
Dynamo 單人工作效能
型號 | TTFT(毫秒) | TPOT(毫秒) | #客戶端 | 角色扮演遊戲 |
---|---|---|---|---|
法學碩士 | 310 | 33 | 8 | 1.35 |
飛龍FusIOnX | 111 | 30 | 16 | 3.03 |
獲得 | 2.79x | - | 2x | 2.24x |
Dynamo 雙工性能
型號 | TTFT(毫秒) | TPOT(毫秒) | #客戶端 | 角色扮演遊戲 |
---|---|---|---|---|
法學碩士 | 557 | 40 | 26 | 3.49 |
vLLM 1P1D | 753 | 36 | 26 | 3.76 |
飛龍FusIOnX | 166 | 38 | 56 | 8.43 |
獲得 | 3.3–4.5 倍 | - | 2.15x | 2.24–2.4 倍 |
Dynamo 四人工人績效
型號 | TTFT(毫秒) | TPOT(毫秒) | #客戶端 | 角色扮演遊戲 |
---|---|---|---|---|
法學碩士 | 1192 | 41 | 60 | 7.32 |
vLLM 2P2D | 719 | 39 | 60 | 7.99 |
飛龍FusIOnX | 329 | 40 | 148 | 20.7 |
獲得 | 2.2–3.6 倍 | - | 2.46x | 2.6–2.8 倍 |
在典型的 40ms TPOT SLO(代表約 25 TPS/用戶)下,FusIOnX 在 RPS/GPU 方面比 vanilla Dynamo 效率高 2.8 倍,比 Dynamo 的預填充解碼分解設定效率高 2.24 倍。而在較不嚴格的 TPOT SLO 下,例如 60ms(~17 TPS/用戶),效率會成長到 3 倍以上。
此外,下圖直觀地顯示了在實驗期間測量的四台機器配置中 Pliops 與 vanilla Dynamo 相比所實現的平均 RPS 增益。在整個測試過程中,Pliops 的效能比 Dynamo 提高了 2 倍以上,展示了該解決方案在現實的類似生產負載條件下維持高效能的能力。這種持續的吞吐量增益直接轉化為更高的用戶並發性和更好的服務回應能力,驗證了大規模 KV 快取卸載的有效性。
量化優勢:KV 快取卸載的實際優勢
那麼這對企業和更廣泛的人工智慧生態系統意味著什麼?首次令牌時間 (TTFT) 的大幅縮短直接轉換為顯著改善的使用者體驗,帶來更快、更靈敏的互動。這對於聊天機器人、虛擬助理和即時編碼副駕駛等互動式應用程式來說尤其重要,因為延遲可能會影響可用性。
除了個人用戶體驗之外,能夠處理兩到三倍的並髮用戶,同時嚴格保持服務等級目標 (SLO),這意味著組織可以使用現有的硬體基礎設施為更大的客戶群提供服務。這種增強的容量對於基於雲端的推理部署至關重要,因為擴展以滿足不斷變化的需求至關重要。
此外,Pliops XDP LightningAI 提供的 KV 快取幾乎無限的儲存容量,可以支援比傳統僅使用 HBM 的方法更長的上下文視窗和更高的並髮用戶密度。這種能力不再只限於最大的人工智慧研究實驗室。各種規模的推理供應商現在都可以利用 Pliops 的解決方案來實現複雜的 KV 快取機制,類似於 OpenAI、Anthropic 和 Google 等主要 AI 公司所採用的機制。
此外,這些提供者可以透過消除冗餘計算和優化記憶體使用來降低整體功耗,從而為更永續的人工智慧基礎設施做出貢獻。最終,這些效率可以透過價格更具競爭力的人工智慧服務傳遞給最終用戶,同時允許提供者以最少的額外資本支出最大限度地提高硬體投資的利用率和回報。
這對人工智慧基礎設施意味著什麼
Pliops XDP LightningAI 及其 FusIOnX 架構代表了 LLM 推理優化的重大進展。透過智慧卸載到經濟高效的儲存來解決 KV 快取管理的關鍵瓶頸,可以在所有關鍵指標上實現顯著的效能提升。
此解決方案與 NVIDIA Dynamo 和 vLLM 的無縫整合可立即應用於各種部署場景。無論是與 Dynamo 複雜的分散式服務功能一起使用還是直接與 vLLM 一起使用,組織都可以預期吞吐量、延遲和成本效率的顯著提高。
隨著 LLM 規模和功能的不斷增加,以及其應用變得越來越關鍵,像 Pliops XDP LightningAI 這樣的解決方案將成為尋求建立可擴展、高效且經濟高效的 AI 基礎設施的組織的重要工具。
結論
Pliops XDP LightningAI 在 FusIOnX 架構的增強下,透過解決持久性 KV 快取瓶頸,實現了 LLM 推理效率的飛躍。透過將 KV 快取資料智慧卸載到高效能、經濟高效的儲存中,Pliops 使組織能夠顯著擴展上下文視窗、支援更多並髮用戶並保持嚴格的延遲 SLO,而無需額外的 GPU 投資。與 NVIDIA Dynamo 和 vLLM 等框架的無縫整合確保了其在現代 AI 服務堆疊中的廣泛適用性。
隨著 LLM 的複雜性不斷增加以及企業採用速度加快,將記憶體擴展與昂貴的 GPU 資源分開將變得至關重要。 Pliops XDP LightningAI 是新一代 AI 基礎設施的推動者,使供應商能夠大規模提供更快、更具可擴展性且更具成本效益的 AI 服務。對於尋求面向未來的 AI 部署並最大化硬體投資回報率的組織,Pliops 為當今大規模推理中最緊迫的挑戰之一提供了引人注目的、可立即投入生產的解決方案。
參與 StorageReview
電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱