IBM 不断改进其 Storage Scale System 6000 平台,以解决现代数据中心中一个常见的难题:数据孤岛会减缓 AI 项目的速度、增加基础设施的复杂性并导致宝贵信息被遗弃。通过单一的全局命名空间和主动文件管理 (AFM) 将边缘、核心和云端的数据统一起来, 存储秤系统 6000 旨在为企业提供一致且高性能的数据平台,可大规模地为 GPU 和 CPU 提供数据支持。最终构建的存储基础架构能够让 AI 流水线立即启动并更快地交付结果,而无需受限于传统存储的限制。
此次更新主要围绕企业当前最关注的两大主题展开:释放暗数据潜力以及消除 AI 推理和训练瓶颈。IBM 通过全新的全闪存扩展机箱、对高容量 QLC NVMe 介质的支持以及旨在提升性能和效率的升级版软件堆栈来应对这些挑战。这些改进使 Storage Scale System 6000 成为一款高密度、可扩展且支持 AI 的存储平台,适用于企业、高性能计算 (HPC) 和 AI 即服务 (AIaaS) 环境。
采用高密度QLC闪存,机架级容量提升三倍
IBM 最新推出的 Storage Scale System 6000 存储系统,最大容量提升至每机架 47PB,是之前的 3 倍。此次容量提升得益于对 30TB、60TB 和 122TB 三种配置的行业标准 QLC NVMe SSD 的支持。客户可以根据工作负载需求,更灵活地选择合适的存储介质,从对性能要求较高的应用场景到容量导向的 AI 存储库,都能轻松应对。
扩展的驱动器选项对于人工智能和分析管道尤为重要,这些管道必须存储和处理海量数据集,同时避免将其分散在多个孤岛或平台上。通过将容量整合到单个全局命名空间中,Storage Scale System 6000 有助于降低管理开销,同时仍能提供 GPU 密集型工作负载所需的性能。
IBM Storage Scale System 7.0.0:面向 AI 和数据服务的软件增强功能
IBM Storage Scale System 7.0.0 软件的发布引入了多项关键增强功能,以提高混合工作负载环境下的数据管理效率、性能和弹性。
首先,该平台现在支持在同一系统中采用符合行业标准的 NVMe TLC 和 QLC 闪存盘进行多闪存分层。此功能使企业能够根据工作负载特性,灵活地兼顾成本、性能和耐用性。对延迟敏感的热数据可以保存在基于 TLC 的层级中,而对容量要求较高或冷数据的存储则可以保存在高密度 QLC 介质上。这种分层模型提供了一种更精细的方式来优化总体拥有成本 (TCO),同时保持可预测的性能。
其次,IBM 推出了专用的数据加速层,该加速层采用高性能 NVMe-oF 为大规模应用程序提供数据。该加速层可提供高达 340GB/s 的吞吐量和高达 28 万 IOPS 的性能。它旨在实现高压缩效率和数据密度,同时降低单位性能的功耗。对于需要充分利用昂贵计算资源的 AI 和 HPC 团队而言,该加速层尤其有助于最大限度地减少因存储瓶颈导致的 GPU 空闲时间。
第三,数据保护框架通过更广泛的纠删码选项得到增强,包括支持 16+2/3P 配置。这些更广泛的纠删码提高了磁盘效率和整体存储利用率,同时还提升了性能和写入吞吐量。最终形成的数据保护方案能够随着平台容量和吞吐量的提升而扩展,而不是成为瓶颈。
最后,该软件栈集成了 NVIDIA Spectrum-X 以太网技术,以加速 AI 训练工作流程。Spectrum-X 可以显著减少 AI 基础模型训练期间的检查点时间,从而缩短训练周期并提高基础设施利用率。对于大规模训练环境而言,这是一种在保持以太网架构的同时缩短洞察时间的有效方法。
全闪存扩展柜
为了满足处理海量数据集的工作负载需求,IBM 推出了 IBM Storage Scale System 全闪存扩展机箱。该机箱针对高性能 AI 训练、推理、高性能计算 (HPC) 以及其他需要高吞吐量和大型连续数据集的数据密集型工作负载进行了优化。
通过集成 122TB QLC NVMe SSD,配备全闪存扩展柜的 Storage Scale System 6000 可在单个 42U 机架中提供超过 47PB 的高密度、高性价比闪存容量。对于希望构建 AI 工厂或大规模 HPC 集群的企业而言,这提供了一条清晰的路径,能够在不牺牲性能的前提下,将存储整合到更小的空间中。
该机箱还经过精心设计,可与 NVIDIA BlueField-3 DPU 集成,实现大规模加速。解决方案中的网络适配器可提供高达 400Gb/s 的高性能网络吞吐量,并为存储扩展系统提供 NVMe-oF 卸载功能。此卸载功能可降低 CPU 开销,使更多主机资源能够用于 AI、分析或 HPC 处理,而不是存储和协议处理。
每个扩展柜均采用 2U 机架式设计,可提供高达 100 GB/s 的吞吐量和超过 3PB 的原始闪存容量。这种高密度和高性能使其非常适合机架空间、电力和散热条件高度受限,但性能要求却不容妥协的环境。
该外壳最多可容纳 4 个 NVIDIA BlueField-3 DPUs 和最多 26 个双端口 QLC SSD。这种组合可实现高聚合带宽、丰富的连接选项,并随着工作负载的增长灵活扩展容量和卸载加速能力。
多租户和服务提供商用例
全新全闪存扩展柜的可扩展性也符合更大缓存配置和多租户服务提供商的需求。IBM Storage Scale System 6000 支持在集群、文件系统或文件集级别进行高度可配置的多租户。
对于服务提供商和大型人工智能工厂而言,这种设计提供了隔离工作负载、实施差异化安全策略以及将资源精确分配给租户或内部业务部门的工具。隔离的实现不会牺牲性能或使运营模式复杂化。
无论环境是大型超级计算部署、传统高性能计算集群,还是人工智能即服务平台,此架构都旨在支持安全、可扩展且经济高效的多租户运行。各种数据密集型工作负载可以在同一基础设施上共存,同时满足合规性、性能和服务级别预期。
在支持现有工作负载的同时,大规模部署人工智能
IT 基础架构团队面临着巨大的压力,既要扩展 AI 项目规模,又要继续支持现有的企业工作负载和传统应用程序。增强型 IBM Storage Scale System 6000 旨在通过单一平台满足这两种需求。
通过统一不同协议、位置和格式的数据,该系统使全球分散的团队能够直接协作处理共享数据,而无需将其复制或暂存到单独的环境中。IBM 的全球缓存和数据编排层 AFM 凭借三倍的容量和扩展的机箱选项,现在可以将更大的工作数据集缓存到更靠近 GPU 的位置。这种近距离缓存有助于消除数据孤岛并减少数据移动开销,从而实现更快、更高效的 AI 流水线。
企业无需为传统工作负载和人工智能维护独立的存储孤岛,而是可以采用 Storage Scale System 6000 作为通用数据平面进行标准化。这种方法简化了操作,支持多种协议和访问方式,同时还能提供现代人工智能和高性能计算工作流程所需的性能。
可用性
IBM Storage Scale System 7.0.0 软件计划于 12 月 9 日发布。新款 IBM Storage Scale System 全闪存扩展柜将于 12 月 12 日正式上市。




Amazon