首页 企业版AI PEAK:AIO 推出用于 KVCache 重用和 AI 内存扩展的代币内存平台

PEAK:AIO 推出用于 KVCache 重用和 AI 内存扩展的代币内存平台

by 哈罗德弗里茨

PEAK:AIO 令牌内存平台使用 KVCache 重用和 CXL 来提供更快的推理、更大的上下文窗口和 AI 就绪内存扩展。

PEAK:AIO 推出了一款创新解决方案,旨在将 KVCache 加速与 GPU 内存扩展相结合,以满足大规模 AI 工作负载的需求。随着 AI 应用从静态提示转向动态上下文流和长期运行的代理,这一新平台能够满足推理、代理系统和模型创建的需求。AI 工作负载复杂性的转变要求基础设施也随之演进,并且 峰值:AIO的最新产品旨在迎接这些挑战。

PEAK:AIO 联合创始人兼首席 AI 策略师 Eyal Lemberger 强调,将代币历史视为内存而非传统存储至关重要。他指出,现代 AI 模型每个实例可能需要超过 500GB 的内存,并且内存扩展必须跟上计算技术的进步。Lemberger 指出,随着 Transformer 模型的不断发展和复杂化,诸如改造存储堆栈或过度扩展 NVMe 等传统方法已不再适用。PEAK:AIO 全新 1U 代币内存平台专为以内存为中心的操作而非文件存储而设计,这与传统架构有着显著的不同。

以代币为中心的可扩展人工智能架构

PEAK:AIO 平台是第一个实现以令牌为中心的架构的平台,该架构利用 CXL 内存、Gen5 NVMe 和 GPUDirect RDMA 来提供高达 150 GB/秒的持续吞吐量和低于 5 微秒的延迟。

PEAK:AIO Token 内存平台

该平台支持跨会话、模型和节点的 KVCache 复用,从而实现更高效的内存利用和更快的上下文切换。它还支持上下文窗口扩展,这对于维护更长的 LLM 历史记录和支持更复杂的 AI 交互至关重要。通过真正的 CXL 分层卸载 GPU 内存,该解决方案缓解了 GPU 内存饱和问题,而这正是大规模 AI 部署中常见的瓶颈。使用基于 NVMe-oF 的 RDMA 实现超低延迟访问,确保令牌内存以内存级速度可用。

与传统的基于 NVMe 的存储解决方案不同,PEAK:AIO 的架构旨在充当真正的内存基础设施。这使得团队能够以 RAM 的速度和效率缓存令牌历史记录、注意力图和流数据,而不是将这些元素视为文件。该平台完全符合 NVIDIA 的 KVCache 重用和内存回收模型,为使用 TensorRT-LLM 或 Triton 的团队提供无缝集成。这种插件兼容性可加速推理并降低集成开销,从而带来显著的性能优势。

Lemberger 强调,虽然其他供应商试图让文件系统像内存一样运行,但 PEAK:AIO 已经开发出本质上像内存一样运行的基础设施。这种区别对于现代人工智能至关重要,因为现代人工智能的首要任务是快速、内存级地访问每个令牌,而不仅仅是文件存储。

PEAK:AIO 联合创始人兼首席战略官 Mark Klarzynski 强调,采用 CXL 技术是其关键的差异化优势。他将该平台描述为真正的 AI 内存结构,这与堆叠 NVMe 设备的竞争对手不同。Klarzynski 指出,这项创新对于大规模提供真正的内存功能并支持下一代 AI 工作负载至关重要。

该解决方案完全软件定义,可在现成的服务器上运行,使其能够访问并扩展到各种企业和云环境。PEAK:AIO 预计该平台将于第三季度投入生产,并将其定位为面向技术销售、工程团队和高管的变革性技术,帮助他们构建面向未来的 AI 基础设施。

参与 StorageReview

电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅