使用 Pliops 和 vLLM 优化 LLM 推理。通过 KV 缓存加速提高性能、降低成本并扩展 AI 工作负载。
Pliops 宣布与 vLLM 生产堆栈,一种开源的集群范围参考实现,旨在优化大型语言模型 (LLM) 推理工作负载。在 AI 社区准备齐聚 GTC 2025 大会之际,这一合作至关重要。通过将 Pliops 先进的键值 (KV) 存储后端与 vLLM Production Stack 的强大架构相结合,此次合作为 AI 性能、效率和可扩展性树立了新的标杆。
芝加哥大学 LMCache 实验室负责人江俊辰强调了此次合作的潜力,强调了其提高 LLM 推理效率和性能的能力。联合解决方案通过在高带宽内存 (HBM) 下方引入新的 PB 级内存层,带来了先进的矢量搜索和检索功能。计算的 KV 缓存使用分解式智能存储进行高效保留和检索,从而加速 vLLM 推理。
有关 Pliops 的入门知识,请参阅我们的 深入探讨文章.
关于 KVCache
大多数大型语言模型都使用 Transformer 架构,该架构依赖于涉及查询、键和值矩阵的注意力机制。在按顺序生成 token 时,Transformer 会重复计算注意力,需要重新计算先前的键和值 (KV) 矩阵,从而导致计算成本增加。KV 缓存通过存储先前计算的 KV 矩阵来解决此问题,允许在后续 token 预测中重复使用,从而显著提高生成效率和吞吐量。
然而,这带来了新的挑战。KV 缓存可能会变得非常大,特别是在较长的生成或批量推理期间(通常批量大小为 32),最终会超出可用内存。为了解决这一限制,KV 缓存存储后端变得必不可少。
Pliops XDP LightningAI
在数据中心部署 Pliops 的 XDP LightningAI 代表着成本效益的范式转变,与传统架构相比,可大幅节省成本。通过在现有基础设施中添加专用的 XDP LightningAI 服务器,组织可以实现显著的节省,包括机架空间优化 67%、功耗降低 66%、年度运营成本节省 58% 以及初始投资成本降低 69%。
Pliops 继续推进其极限数据处理器 (XDP),即 XDP-PRO ASIC,并辅以全面的 AI 软件堆栈和分布式节点。该解决方案利用 GPU 启动的键值 I/O 接口,实现了前所未有的可扩展性和性能。Pliops 的 XDP LightningAI 实现了显著的端到端性能改进,使 vLLM 推理的性能提高了 8 倍,显著加速了生成式 AI (GenAI) 工作负载。通过整合 DeepSeek 等前沿行业趋势,Pliops 确保了对未来 AI 发展的强大适应性。
Pliops 在 AI DevWorld 上展示了这些进步,重点介绍了 XDP LightningAI 如何通过显著降低计算能力和成本来彻底改变 LLM 性能。这次演示表明了 Pliops 致力于实现企业级可持续 AI 创新。
持续合作
Pliops 使组织能够最大限度地发挥人工智能驱动洞察力的潜力,通过提供可操作数据的即时访问并确保无缝的集成路径,在快速发展的技术环境中保持竞争优势。
此次合作的未来发展路线图包括将 Pliops 的 KV-IO 堆栈集成到生产堆栈中,并逐步实现高级功能,例如跨多轮对话的快速缓存、可扩展的 KV 缓存卸载和简化的路由策略。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅