首页 企业版AI Pliops XDP LightningAI 增强 KV 缓存,利用 NVIDIA Dynamo 优化 LLM 推理

Pliops XDP LightningAI 增强 KV 缓存,利用 NVIDIA Dynamo 优化 LLM 推理

by 迪维扬什·贾恩

Pliops XDP LightningAI 通过卸载 KV 缓存来增强 LLM 推理,并通过 NVIDIA Dynamo 集成实现更快、可扩展的 AI。

Pliops 站在数据加速领域的前沿,专注于提供旨在优化和增强云和企业数据中心内数据密集型工作负载的硬件和软件解决方案。Pliops 极限数据处理器 (XDP) 旨在通过管理应用程序和存储之间的数据流、消除瓶颈并降低延迟来提升现代数据基础设施的性能和效率。XDP 尤其适用于要求高吞吐量和低延迟的严苛环境,例如支持人工智能、复杂数据库、高级分析和大规模存储系统的环境。

Pliops XDP LightningAI 架构

随着人工智能日益成为业务运营和创新的基石,对数据中心基础设施的需求也呈指数级增长,尤其是在人工智能推理工作负载方面。这些工作负载需要快速高效地处理海量数据,这给现有的计算和存储资源带来了巨大的压力。企业在部署可扩展、经济高效且节能的基础设施方面面临着越来越大的挑战,这些基础设施必须能够持续满足严格的性能 SLA。

Pliops XDP LightningAI 直面这些紧迫的挑战。这款创新解决方案引入了通用存储加速引擎,旨在与 领先的服务器平台,例如 Dell PowerEdge 系统,并与先进的推理解决方案协同工作,例如 NVIDIA Dynamo,有望实现高效的AI运营。

为什么 KV 缓存对于可扩展的 LLM 推理至关重要

KV 缓存的机制和重要性

优化基于 Transformer 的大型语言模型的核心是键值缓存 (KV),这是一种基础技术,可以减少自回归推理过程中的计算冗余。在 Transformer 架构中,生成每个新 token 都需要计算当前 token 的查询与所有先前 token 的键值之间的注意力。

如果没有有效的缓存机制,此过程会在每次生成步骤中为序列中的每个标记重复计算这些键和值。这会导致长度为 n 的序列的计算复杂度为 O(n²),即二次复杂度。键值缓存通过将先前标记计算出的键和值矩阵直接存储在 GPU 内存中来避免这种情况;模型可以在后续步骤中重用这些预先计算的张量。这种重用显著降低了初始标记处理后的计算复杂度至 O(n),从而显著加快了推理速度。

这种效率的提升对于实时人工智能应用(例如交互式聊天机器人、即时翻译服务和动态代码生成)至关重要,因为延迟是直接影响用户体验和应用程序可行性的关键因素。

GPU 内存限制:隐藏的瓶颈

虽然 KV 缓存可以显著提升推理速度,但它会给 GPU 内存资源带来压力。KV 缓存的大小会随着序列长度(上下文窗口)和批次大小(并发请求数)线性增长。

在多租户云环境或处理数百甚至数千个并发请求的企业系统中,这种内存消耗甚至会迅速耗尽即使是最高端的 GPU 基础架构。这种耗尽迫使我们做出艰难的权衡:减小批次大小(降低吞吐量)、缩短上下文长度,还是投资更多 GPU(增加资本支出)。

此外,推理提供商的常见做法是不在用户轮次或消息之间保留键值缓存。这意味着,先前计算的令牌的二次计算复杂度会在每次后续交互中重新产生,从而抵消了一些潜在的效率提升。 

NVIDIA Dynamo:重新思考大规模 LLM 推理

什么是 NVIDIA Dynamo?

NVIDIA Dynamo 是一款近期发布的变革性开源框架,旨在解决分布式和分解式 LLM 推理服务所面临的复杂挑战。Dynamo 支持多种后端,包括 PyTorch、SGLang、TensorRT-LLM 和 vLLM,其设计旨在将推理操作从单 GPU 部署无缝扩展到千 GPU 集群。它引入了重要的架构创新,以克服 KV 缓存带来的内存限制,同时优化以实现最大吞吐量和最小延迟。

分解式服务架构

NVIDIA Dynamo 的核心创新在于其分解式服务方法。该架构策略性地将计算密集型的预填充阶段与受内存限制的解码阶段(生成后续令牌)分离。通过将这些不同的阶段智能地分配到独立的专用 GPU 池,Dynamo 可以对每个阶段进行独立优化,从而提高资源利用效率并提升整体性能。

KV 缓存的改进

NVIDIA Dynamo 还集成了先进的 KV 缓存管理功能。其 KV 缓存感知智能路由器可追踪整个 GPU 集群中 KV 缓存数据的状态和位置。这使得它能够智能地将传入的推理请求路由到具有相关缓存条目的 GPU,从而最大限度地减少昂贵的重新计算和数据传输开销。

此外,Dynamo 分布式 KV 缓存管理器通过实施分层卸载,直接解决了内存容量限制问题。此功能允许将访问频率较低或优先级较低的 KV 缓存块从昂贵、快速的 HBM 迁移到更具成本效益的存储解决方案,例如共享 CPU 内存、本地 SSD 或网络对象存储。这种分层存储方法使组织能够以极低的成本管理和存储海量 KV 缓存数据,从而提高推理性能和经济效率。

需要澄清的是,截至目前,上述 KV 缓存卸载功能是 Dynamo 的一部分 未来路线图 并且在开源版本中尚未提供。因此,当前的开源 Dynamo 部署不支持将 KV 缓存卸载到分层存储。这意味着,在实践中,Dynamo 的性能仍然受到可用 GPU 内存的限制。

Pliops XDP LightningAI:大规模解决 KV 缓存问题

Pliops XDP LightningAI 旨在构建一个超快速、可扩展的 PB 级内存层,其战略性地位于 GPU HBM 之下。这解决了企业在批量大小、上下文长度、模型复杂性和不断上​​升的硬件成本之间关键的权衡。Pliops 解决方案结合了其尖端的 XDP-PRO ASIC 和 KVIO Store。它使 GPU 服务器能够高效地将大量 KV 缓存数据卸载到经济高效的 NVMe SSD 存储中,同时保持极低的亚毫秒级访问延迟。

在实际部署中,利用 Pliops XDP LightningAI 进行 KV 缓存卸载可实现 实质上 没有明显的区别 与将整个键值缓存保留在稀缺且昂贵的 HBM 中的场景相比,TTFT(首次令牌时间)显著缩短。这使得企业能够大幅扩展键值缓存的有效内存容量,同时又不影响实时 AI 应用所需的关键低延迟性能。

 

通过基于标准的设计实现无缝集成

Pliops XDP LightningAI 的优势在于其采用开放标准,确保轻松部署。该解决方案的 NVMe-oF 原生架构确保与现有 GPU 服务器生态系统广泛兼容,部署时无需对服务器进行硬件修改。它利用标准的 NVMe-oF over RDMA 技术,实现跨 GPU 集群的高速、低延迟缓存同步。这充分利用了现有的数据中心网络基础设施,简化了部署并减少了集成阻力。 

Pliops 通过由两项互补技术构建的紧密结合的解决方案实现了这一目标:XDP LightningAI 和 FusIOnX。虽然这些组件作为整体架构的一部分协同工作,但它们各自承担着不同的角色。 Pliops XDP LightningAI 解决方案围绕专用硬件设备构建,该设备具有由定制 XDP ASIC 和一系列 SSD 供电的 PCIe 附加卡。 

另一方面,FusIOnX 是一个互补的软件平台,用于协调和管理 XDP LightningAI 硬件的智能使用。它是一个分解的键值缓存卸载系统,通过存储和重用先前计算的键值缓存来消除冗余计算。FusIOnX 提供智能识别、存储和高效检索上下文数据的功能,这些数据原本需要重新计算,从而加速 LLM 推理。该软件堆栈提供多种针对不同部署场景的配置,包括一个 vLLM 生产堆栈,该堆栈具有跨多个 GPU 节点的智能路由功能,并与 Dynamo 和 SGLang 等框架集成。

Pliops LightningAI FusIOnX 架构

该系统架构基于承载 GPU 的启动器节点和 LightningAI 目标节点,前者负责将键值缓存卸载到高性能存储。这些节点使用任一 DPU 的标准网卡,通过基于 NVMe-oF 协议的高速网络进行通信。

深入研究数据流,Nvidia Dynamo 工作器与 GPU 服务器上应用程序容器内的 FusIOnX 客户端 SDK 进行交互。然后,该 SDK 通过 NVMe-oF 通过 DPU 或标准 NIC 与托管 FusIOnX KV Store 和 Pliops XDP Pro1 加速卡的 XDP LightningAI 存储服务器进行通信。

LightningAI 与 NVIDIA Dynamo 的结合:性能基准测试

FusIOnX-Dynamo 集成基准测试表明,在多种配置下,性能均有显著提升。测试使用 Meta-Llama-3.1-70B-Instruct-FP8-dynamic 模型进行,该模型的张量并行度为 2 (TP2)。

测试配置

  • 发起方(GPU 服务器): Dell PowerEdge XE9680 服务器,配置有:
    • GPU: 8 个 NVIDIA H100 SXM,每个配备 80GB HBM3
    • DRAM: 2TB
    • 中央处理器: 双插槽英特尔至强铂金 8568Y+ 处理器
    • 网络: 2 个 NVIDIA ConnectX-7 适配器​​(400Gbps)

  • 目标(Pliops存储服务器): Dell PowerEdge R860 节点,配置有:
    • DRAM: 512GB
    • 中央处理器: 四插槽英特尔至强金牌 6418H 处理器
    • Pliops 加速度: 1 张 Pliops XDP Pro1 卡
    • 存储: 24 个三星 PM1733a 3.84TB NVMe SSD,为 KV 缓存卸载提供大量原始容量
    • 网络: 1 个 NVIDIA ConnectX-7 HHHL 适配器卡(400GbE、单端口 OSFP、PCIe 5.0 x16)
  • 网络互连: 这两台服务器通过 NVIDIA SN5600 Spectrum-X 800Gbps 以太网交换机连接,确保 NVMe-oF 流量的高带宽和低延迟通信。

测量的关键指标:

  • 首次令牌时间(TTFT):用户开始看到生成内容的速度有多快
  • 每个输出令牌的时间(TPOT):生成令牌之间的时间
  • 每秒请求数 (RPS):系统吞吐量
  • 每秒令牌数(TPS):生成速度

基准测试模拟了多轮对话,平均提示长度为 2,200 个标记,每轮有 100-230 个输出标记,对话跨越 2-28 轮。

Dynamo 单人工作性能

配置 TTFT(毫秒) TPOT(毫秒) #客户端 角色扮演游戏
法学硕士 310 33 8 1.35
飞龙FusIOnX 111 30 16 3.03
Gain增益 2.79x 2x 2.24x

Dynamo 双工性能

配置 TTFT(毫秒) TPOT(毫秒) #客户端 角色扮演游戏
法学硕士 557 40 26 3.49
vLLM 1P1D 753 36 26 3.76
飞龙FusIOnX 166 38 56 8.43
Gain增益 3.3–4.5 倍 2.15x 2.24–2.4 倍

Dynamo 四人工人绩效

配置 TTFT(毫秒) TPOT(毫秒) #客户端 角色扮演游戏
法学硕士 1192 41 60 7.32
vLLM 2P2D 719 39 60 7.99
飞龙FusIOnX 329 40 148 20.7
Gain增益 2.2–3.6 倍 2.46x 2.6–2.8 倍

在典型的 40ms TPOT SLO(约相当于每位用户 25 TPS)下,FusIOnX 的效率比原生 Dynamo 高 2.8 倍,比 Dynamo 的预填充-解码分解式配置高 2.24 倍(以 RPS/GPU 为单位)。而当 TPOT SLO 要求较低时,例如 60ms(约相当于每位用户 17 TPS),效率可提升至 3 倍以上。

此外,下图直观地展示了在四台服务器配置下,Pliops 相对于原生 Dynamo 的平均 RPS 提升,该提升是在实验期间测量的。在整个测试期间,Pliops 的性能比 Dynamo 提高了 2 倍以上,展现了该解决方案在实际生产负载条件下保持高性能的能力。这种持续的吞吐量提升直接转化为更高的用户并发性和更佳的服务响应速度,验证了键值缓存卸载在大规模场景下的有效性。

量化优势:KV 缓存卸载的实际优势

那么,这对企业和更广泛的 AI 生态系统意味着什么?显著缩短的首次令牌时间 (TTFT) 直接转化为显著提升的用户体验,带来更快、更灵敏的交互。这对于聊天机器人、虚拟助手和实时编码副驾驶等交互式应用尤为重要,因为延迟可能会影响可用性。

除了提升个人用户体验之外,在严格遵守服务级别目标 (SLO) 的同时,能够处理两到三倍的并发用户,这意味着企业可以利用现有硬件基础设施服务于更大规模的客户群。这种增强的容量对于基于云的推理部署至关重要,因为在云部署中,扩展以满足不断变化的需求至关重要。

此外,Pliops XDP LightningAI 提供的几乎无限的键值缓存存储容量,使其能够支持比传统纯 HBM 方法更长的上下文窗口和更高的并发用户密度。这种能力不再仅限于大型 AI 研究实验室。各种规模的推理提供商现在都可以利用 Pliops 的解决方案来实现复杂的键值缓存机制,类似于 OpenAI、Anthropic 和 Google 等大型 AI 公司所采用的机制。

此外,这些提供商可以通过消除冗余计算和优化内存使用来降低整体功耗,从而构建更可持续的 AI 基础设施。最终,这些效率提升可以通过价格更具竞争力的 AI 服务惠及最终用户,同时使提供商能够以最小的额外资本支出最大限度地提高硬件投资的利用率和回报。 

这对人工智能基础设施意味着什么

Pliops XDP LightningAI 凭借其 FusIOnX 架构,代表了 LLM 推理优化领域的重大进步。通过智能卸载到经济高效的存储,解决了键值缓存管理的关键瓶颈,从而显著提升了所有关键指标的性能。

该解决方案与 NVIDIA Dynamo 和 vLLM 的无缝集成可立即应用于各种部署场景。无论是与 Dynamo 先进的分布式服务功能结合使用,还是直接与 vLLM 结合使用,企业都可以显著提高吞吐量、降低延迟并提高成本效率。

随着 LLM 规模和功能的不断增加,以及其应用变得越来越关键,像 Pliops XDP LightningAI 这样的解决方案将成为寻求构建可扩展、高效且经济高效的 AI 基础设施的组织的重要工具。

结语

Pliops XDP LightningAI 在 FusIOnX 架构的支持下,通过解决持续存在的键值缓存瓶颈,实现了 LLM 推理效率的飞跃。通过将键值缓存数据智能地卸载到高性能、经济高效的存储中,Pliops 使企业能够显著扩展上下文窗口、支持更多并发用户,并在无需额外 GPU 投资的情况下保持严格的延迟 SLO。与 NVIDIA Dynamo 和 vLLM 等框架的无缝集成,确保了其在现代 AI 服务堆栈中的广泛适用性。

随着 LLM 的复杂性日益增长以及企业采用的加速,将内存扩展与昂贵的 GPU 资源分离至关重要。Pliops XDP LightningAI 是下一代 AI 基础架构的赋能者,使提供商能够大规模提供更快、更可扩展且更具成本效益的 AI 服务。对于寻求面向未来的 AI 部署并最大化硬件投资回报率的企业而言,Pliops 提供了一个极具吸引力且可立即投入生产的解决方案,以应对当今大规模推理领域最紧迫的挑战之一。

申请 Pliops 演示

参与 StorageReview

电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅