主页 企业AI 打开钱包门 Hal:多 GPU 的使用和模型并行的力量

打开钱包门 Hal:多 GPU 的使用和模型并行的力量

by 乔丹拉努斯
HP Z8 Fury G5 内饰

人工智能的世界正在以极快的速度发展,眨眼,你就会错过下一个进步。 随着模型规模越来越大,研究人员和开发人员不断寻求提高 AI 模型效率和性能的方法。 实现这一目标的最简单方法之一是使用多个图形处理单元 (GPU) 或张量处理单元(TPU,下一期将详细介绍)进行 AI 训练和推理。

人工智能的世界正在以极快的速度发展,眨眼,你就会错过下一个进步。 随着模型规模越来越大,研究人员和开发人员不断寻求提高 AI 模型效率和性能的方法。 实现这一目标的最简单方法之一是使用多个图形处理单元 (GPU) 或张量处理单元(TPU,下一期将详细介绍)进行 AI 训练和推理。

HP z8 G5 Fury 上的 DNN 培训

建立在我们的 人工智能在实验室的最后一部分,我们深入研究并实际动手研究了在我们的 HP Z8 G5 Fury 工作站中从使用单个 GPU 过渡到使用两个,最终四个这些强大的卡的好处,特别关注 PyTorch 模型并行性.

模型并行的力量

在我们深入细节之前,了解并行性的概念至关重要。 在 AI 的上下文中,并行性是指同时运行多个计算的过程。 这在需要处理大量数据的 AI 训练和推理中特别有用。 PyTorch 是我们在实验室中使用的开源机器学习库,它提供模型并行性,允许跨多个 GPU 分布 AI 模型。 这会导致更快的训练时间、更高效的推理以及运行更大、更复杂模型的能力。

确保禁用 SLI 至关重要

扩大规模的好处

单 GPU

从单个 GPU 开始,此设置为 AI 训练和推理提供了坚实的基础。 在用于开发的工作站中运行单个现代(甚至是几代以前的)GPU 对于 POC 阶段来说绰绰有余。 它能够处理合理数量的数据,并且可以为较小的 AI 模型提供令人满意的结果。 然而,随着模型的复杂性和规模的增加,单个 GPU 可能很快难以跟上,从而导致更长的训练时间和更慢的推理。

单 GPU 利用率

两个 GPU

切换到一对 GPU 可以显着提高 AI 模型的性能。 想一想:两倍的处理能力可以显着缩短训练时间,为更快的迭代和快速获得结果铺平道路。

推理阶段也受益,变得更加高效并且能够同时处理更大的数据批次。 在这样的环境中,PyTorch 的模型并行性开始发挥作用。 它有效地分配了两个单元之间的工作量,最大限度地利用它们。 这是确保每件硬件都承载其重量以实现高效 AI 操作的明智方法。

HP Z8 Fury G5 与 Nvidia RTX A6000

3 倍的乐趣,NVIDIA A6000

四个GPU

扩展到四个 GPU 可将多 GPU 利用率的优势提升到另一个层次。 凭借四倍的处理能力,人工智能模型可以以前所未有的速度进行训练和推理。 此设置特别有利于需要大量计算资源的大型复杂模型。 PyTorch 的模型并行性可以将模型分布在所有四个单元中,确保最佳利用率和性能。

在工作站中,应用手动风扇和时钟值也可以提高训练性能。

实验室实施

从一个单独的单元发展为两个 GPU,并最终发展为用于 AI 训练和推理的四重 GPU 可以释放出相当大的优势。 由于 PyTorch 的模型并行性,这些优势可以得到最佳利用,从而产生更快、更高效的 AI 模型。

反复试验,耐心是 AI/ML/DL 培训的关键。

随着我们对更复杂、更强大的 AI 的渴望不断膨胀,采用多个 GPU 的重要性无疑会增加。 在下一篇文章中,我们将展示随着您添加更多处理能力和跨系统分布所带来的复杂性改进。

注意:本文基于截至 2023 年 XNUMX 月 AI 和 PyTorch 的当前状态。有关最新信息,请务必查看我们的 最近的人工智能文章.

参与 StorageReview

订阅电子邮件 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅