首页 企业AI 扩展 AI 检查点:高容量 SSD 对模型训练的影响

扩展 AI 检查点:高容量 SSD 对模型训练的影响

by 凯文·奥布莱恩

检查点对于 AI 模型训练至关重要,可确保弹性、效率以及从已保存状态恢复或微调训练的能力。

检查点对于 AI 模型训练至关重要,可确保弹性、效率以及从已保存状态恢复或微调训练的能力。然而,现代 AI 工作负载的需求(模型越来越复杂,训练数据集越来越大)将存储推向极限。

检查点在 AI 工作流程中的作用

人工智能训练中的检查点是一个关键过程,涉及在训练期间定期保存模型的完整状态。此状态包括模型权重和参数、优化器状态、学习率计划和训练元数据。检查点会在特定间隔内创建训练过程的全面快照,从而提供训练连续性和中断时的恢复。

检查点通常以迭代间隔(例如,每千个训练步骤)进行。现代 LLM 训练可能持续数周或数月,并消耗大量计算资源,严重依赖这些检查点作为防止潜在故障的安全网。例如,训练像 GPT-4 类这样的模型可以生成从几百 GB 到几 TB 不等的检查点,具体取决于模型大小和训练配置。

DALL-E 生成的训练过程

检查点的主要目的不仅限于备份功能。它是训练弹性的重要机制,能够在系统故障、断电或硬件问题发生时从上次保存的状态恢复训练,而不是从头开始。此外,检查点对于模型分析非常有用,允许研究人员检查模型在不同训练阶段的演变,并在检测到性能下降时可能回滚到之前的状态。

从存储角度来看,检查点期间的写入模式特别有趣。触发检查点时,系统必须以突发模式写入大量数据。这会产生独特的 I/O 配置文件,其特点是训练计算期间存储活动相对较低,然后在检查点期间进行密集的高带宽写入操作。这些写入操作通常是连续的,并且可以从针对高带宽顺序写入进行优化的存储系统中受益匪浅。

分布式训练中的不同并行策略会显著影响检查点行为。这些并行策略会影响训练期间检查点发生的时间以及检查点模型的哪个部分。在现代分布式训练设置中,多个 GPU 可以同时写入同一层的不同部分,从而创建复杂的 I/O 模式。这种并行写入能力是提高效率的关键,但需要仔细协调和强大的存储系统,以便处理并发写入操作并保持数据一致性。存储系统必须能够有效地管理这些同时写入,因为此过程中的任何瓶颈都可能导致整体训练延迟。

检查点速度慢可能会造成严重的训练瓶颈,因为在将检查点写入存储时整个训练过程必须暂停。例如,在大规模训练设置中,如果每隔几个小时检查点需要 30 分钟,则可能导致整个训练期间累计停机数小时。这会直接影响训练效率并增加运营成本,尤其是在按时间计费的计算资源云环境中。

有了更快的检查点,团队还可以更频繁地创建检查点,从而减少发生故障时可能丢失的最大数据。这可以实现更积极的训练方法和更好的实验迭代周期。此外,快速的检查点加载时间有助于更快地试验不同的训练配置和模型架构,因为研究人员可以更容易地从以前的状态恢复以尝试替代方法。

存储系统有效处理这些检查点操作的能力成为整个训练基础设施的关键因素。能够管理检查点的突发写入模式和训练的持续读/写操作的高性能存储解决方案可以显著影响训练大型语言模型的总时间和成本。因此,存储子系统的性能特征,特别是在处理大量连续写入和保持一致的高带宽方面,是设计 LLM 训练基础设施的关键考虑因素。

对于本报告,我们希望评估 SSD 在 AI 检查点方面的性能,在检查点速度至关重要的情况下评估最新的 Gen5 SSD 的优势,并与市场上最大的 QLC SSD 进行比较,后者可以存储大量检查点,这对正在训练的模型更有利。

检查点性能 – 使用 DLIO 进行基准测试

为了评估 Solidigm SSD 在 AI 训练环境中的实际性能,我们利用了 数据和学习输入/输出 (DLIO) 基准工具DLIO 由阿贡国家实验室开发,专门用于测试深度学习工作负载中的 I/O 模式。它提供了有关存储系统如何处理检查点、数据提取和模型训练挑战的见解。

我们与 DLIO 合作,旨在测量密集检查点场景下驱动器的吞吐量、延迟和可靠性。虽然这项测试是在 61.44TB D5-P5336 上进行的,但初步性能数据显示 Solidigm D5-P5336 122TB 版本提供了类似的性能概况。我们还包含了基于 TLC 的 D7-PS1010 的结果,以显示 PCIe Gen5 在本次测试中的优势。我们选择这两个驱动器来展示检查点的两个角度,一个是可能的最快检查点时间,另一个是在单个 SSD 上存储最多检查点。

这项工作选择的平台是运行 Ubuntu 760 LTS 的 Dell PowerEdge R22.04.02。我们使用了 2.0 年 13 月 2024 日发布的 DLIO 基准测试版本 XNUMX。我们的系统配置概述如下:

  • 2 个英特尔至强金牌 6430(32 核,2.1GHz)
  • 16个64GB DDR5-4400
  • 480GB 戴尔 BOSS 固态硬盘
  • 串行电缆 Gen5 JBOF
    • 7.68TB Solidigm D7-PS1010
    • 61.44TB Solidigm D5-P5336

为了确保我们的基准测试能够反映真实场景,我们基于 LLAMA 3.1 405B 模型架构进行测试,通过 torch.save() 实现检查点,以捕获模型参数、优化器状态和层状态。我们的设置模拟了一个 8-GPU 系统,实现了混合并行策略,其中 4 路张量并行和 2 路流水线并行处理分布在八个 GPU 上。此配置导致检查点大小为 1,636 GB,代表了现代大型语言模型训练要求。

我们对 DLIO 检查点工作负载的测试过程包括将每个驱动器填充到相似的利用率水平。对于 61.44TB Solidigm D5-P5336,每次通过包括 33 个检查点间隔,总计 54TB。较小的 7.68TB D7-PS1010 可以轻松容纳三个检查点间隔,总占用空间为 4.9TB。D7-PS1010 可以容纳一个额外的检查点,尽管这会使其利用率略高于我们的预期。

当我们将基于 Gen4 QLC 的 61.44TB D5-P5536 与基于 Gen5 TLC 的 7.68TB D7-PS1010 进行比较时,DLIO 检查点工作负载产生了有趣的结果。在第一次测试中,随着驱动器填满,我们目睹了两种 SSD 型号之间的性能差距越来越大。速度更快的 Gen5 PS1010 平均在 464 秒内完成每个检查点,而 Gen623 P4 则需要 5336 秒。在第二轮和第三轮测试中,PS579 的差距缩小到 587 秒和 1010 秒,P676 的差距缩小到 680 秒和 5336 秒。

对于希望检查点间隔尽可能小的企业来说,基于 TLC 的 Gen5 PS1010 在最快完成时间方面具有优势。如果目标是以经济高效的方式保留许多检查点,那么基于 QLC 的 Gen4 P5336 可以做到这一点。我们测量了第二遍和第三遍中两个驱动器的平均检查点时间差异小于 17%。

GPUDirect 存储带宽

虽然 DLIO 显示了 AI 工作流程中的闪存性能,但在恢复检查点之前,工作负载完全基于写入。为了更全面地了解 Solidigm D7-PS1010 和 D5-P5336 在 AI 工作负载中的表现,我们使用 GDSIO 进行了读取带宽测量。

GPU 直接存储的工作原理

传统上,当 GPU 处理存储在 NVMe 驱动器上的数据时,数据必须先经过 CPU 和系统内存,然后才能到达 GPU。这个过程会造成瓶颈,因为 CPU 会成为中间人,增加延迟并消耗宝贵的系统资源。GPU 直接存储通过使 GPU 能够通过 PCIe 总线直接从存储设备访问数据,消除了这种低效率。这种直接路径减少了与数据移动相关的开销,从而实现了更快、更高效的数据传输。

AI 工作负载(尤其是涉及深度学习的工作负载)是高度数据密集型的。训练大型神经网络需要处理数 TB 的数据,数据传输的任何延迟都可能导致 GPU 利用率不足和训练时间延长。GPU Direct Storage 通过确保尽快将数据传送到 GPU、最大限度地减少空闲时间并最大限度地提高计算效率来解决这一挑战。

与 DLIO 测试一样,目标是更好地理解和描述高速 Gen5 SSD 和高容量 QLC 驱动器之间的差异。并非所有 AI 工作负载都相同,并且每种驱动器都根据需要提供不同的优势。

测试配置矩阵

我们在测试平台上使用 NVIDIA L4 系统地测试了以下参数的每种组合:

  • 块大小:1M、128K、64K、16K、8K
  • 线程数:128、64、32、16、8、4、1
  • 工作数量:16
  • 批次大小:16

我们首先看到的是基于 QLC 的 D5-P5336,它在 IO 深度为 4.2 的情况下使用 1M 传输大小时最高速度达到 128GiB/s。块大小的影响使带宽大幅提升,从 8K 上升到 1M。增加 IO 深度的优势在 32 时开始减弱,此时工作负载开始趋于平稳。

接下来,我们来看看 Gen5 PS-1010,它可以在 6.2M 块大小和 1 IO 深度下扩展到 128GiB/s。总体而言,它的表现优于基于 Gen4 的 P5336,特定工作负载显示出显着提升。一个值得注意的改进领域是 128K 块大小,在 64 和 128 的 IO 深度下,PS1010 提供的读取带宽是 P5336 的两倍。

值得注意的是,这两款 SSD 均使用 NVIDIA L4 进行测试。虽然 Gen4 D5-P5336 处于或接近其顶级水平,但高端 NVIDIA GPU(如 H100)在 D7-PS1010 上表现出更高的性能。对于某些客户来说,驱动器的速度是最终决定因素,而其他客户则优先考虑整体密度。 固晶 提供解决方案 两者均 QLC 和 TLC SSD 产品。

结语

随着 AI 训练的规模和复杂性不断激增,底层存储基础设施不仅必须跟上步伐,还必须设定节奏。我们对两款截然不同的 SSD 进行的测试表明,将存储解决方案与特定的训练优先级保持一致非常重要,例如最小化检查点延迟或最大化检查点密度以实现经济高效的可扩展性。

在我们的评估中,我们使用 DLIO 基准和广泛的混合并行 LLM 检查点工作流程,在真实的 AI 训练条件下测试了 Solidigm D5-P5336 (61.44TB) 和 D7-PS1010 (7.68TB)。我们在驱动器填满时捕获了反映多次运行检查点写入性能的指标,突出了基于 Gen4 QLC 的 D5-P5336 和基于 Gen5 TLC 的 D7-PS1010 之间的完成时间差异。

虽然 D7-PS1010 提供了最快的检查点写入速度,但 D5-P5336 表现出了令人信服的成本效益和容量优势,并且性能损失很小。我们通过 NVIDIA L4 GPU 进一步检查了 GPU Direct Storage 的 GDSIO 读取带宽。我们发现 Solidigm D5-P5336 提供高达 4.2GiB/s 的读取带宽,传输大小为 1M,而 D7-PS1010 则大幅提升至 6.2GiB/s。通过利用更大的 GPU(例如 NVIDIA L40s 或 H100/H200),您将看到更强大的性能。

展望未来,Solidigm D5-P5336 122TB SSD 的空前容量将重塑 AI 训练和部署。随着模型大小和检查点要求不断激增,这些海量驱动器将带来新的效率和灵活性,实现以前无法实现的训练策略。Solidigm 在高容量 SSD 解决方案方面的领先地位使组织能够在更少的驱动器上存储更多数据和检查点,并帮助其基础设施应对下一波 AI 复杂性。

Solidigm D5-P5336 122TB 固态硬盘

本报告由 Solidigm 赞助。 本报告中表达的所有观点和意见均基于我们对所考虑产品的公正看法。

参与 StorageReview

电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅