主页 EnterpriseAI 从 SLI 到 NVLink:游戏和多 GPU 技术的演变及其对 AI 的影响

从 SLI 到 NVLink:游戏和多 GPU 技术的演变及其对 AI 的影响

by 乔丹拉努斯
HP Z8 Fury G5 CPU 散热器

在过去的二十年中,图形处理单元 (GPU) 的格局经历了巨大的变化,最近随着人工智能的兴起而发生了翻天覆地的变化。 这一演变的一个重要部分是允许多个 GPU 协同工作的技术的发展。 NVIDIA 是 GPU 领域的领跑者,凭借两项关键技术一直处于这场革命的最前沿:可扩展链路接口 (SLI) 和 英伟达 NVLink。 本文追溯了从 SLI 到 NVLink 的历程,重点介绍了 NVIDIA 如何不断适应不断变化的计算需求。

在过去的二十年中,图形处理单元 (GPU) 的格局经历了巨大的变化,最近随着人工智能的兴起而发生了翻天覆地的变化。 这一演变的一个重要部分是允许多个 GPU 协同工作的技术的发展。 NVIDIA 是 GPU 领域的领跑者,凭借两项关键技术一直处于这场革命的最前沿:可扩展链路接口 (SLI) 和 英伟达 NVLink。 本文追溯了从 SLI 到 NVLink 的历程,重点介绍了 NVIDIA 如何不断适应不断变化的计算需求。

SLI 的黎明

NVIDIA 在 2000 年代初推出了 SLI,最初是由 3dfx 为 Voodoo2 系列显卡开发的,是 NVIDIA 为满足视频游戏和消费者应用程序中对更高图形保真度不断增长的需求而做出的回应。 SLI 的核心使用一种称为交替帧渲染 (AFR) 的技术,将渲染工作负载分配到多个 GPU 上。 每张卡都会绘制每隔一帧甚至每一帧的一部分,从而有效地使图形处理能力加倍。 尽管 SLI 在当时具有革命性意义,但也存在局限性,包括延迟较高以及 GPU 之间的数据共享缺乏灵活性。

SLI 与 CrossFire:多 GPU 解决方案的竞争

虽然 NVIDIA 的 SLI 引领了多 GPU 配置的步伐,但它并非没有竞争。 AMD 的交叉火力 是直接竞争对手,为多 GPU 设置提供类似的功能。 与 SLI 一样,CrossFire 旨在通过交替帧渲染 (AFR) 和分割帧渲染 (SFR) 等技术来提高图形性能。

图片来源达拉斯·摩尔

图片来源达拉斯·摩尔

然而,《穿越火线》有其自身的优势和挑战。 一般来说,可以使用的 GPU 组合更加灵活,允许混合使用不同的 AMD 卡。 缺点是,CrossFire 经常因其软件堆栈而受到批评,一些用户发现该软件堆栈不如 NVIDIA SLI 可靠且配置更复杂。 尽管存在这些差异,但这两种技术都致力于实现相同的目标:增强游戏和消费者图形体验。 它们在处理更高级、数据密集型任务方面的局限性最终将为 NVLink 等下一代解决方案铺平道路。

随着 2010 年代的到来,计算领域开始发生巨大变化。 人工智能 (AI)、高性能计算 (HPC) 和大数据分析的兴起需要更强大的多 GPU 解决方案。 很明显,最初设计时考虑到游戏和消费者工作负载的 SLI 不足以满足这些计算密集型任务。 NVIDIA 需要一个新的范例。

双GPU卡时代:多GPU计算的独特方法

虽然 SLI 和 CrossFire 等技术专注于连接多个独立 GPU,但还有另一种不太常见的多 GPU 配置方法:双 GPU 卡。 这些专用显卡在单个 PCB(印刷电路板)上安装了两个 GPU 核心,有效地充当单张卡上的 SLI 或 CrossFire 设置。 NVIDIA GeForce GTX 690 和 AMD Radeon HD 6990 等卡是这种方法的流行示例。

双 GPU 卡具有多项优势。 他们通过将两个 GPU 压缩到一个卡槽中来节省空间,这使得它们对小型 PC 很有吸引力。 他们还无需将单独的卡与外部连接器连接起来,从而简化了设置。 然而,这些卡也并非没有问题。 散热是一个重大问题,通常需要先进的冷却解决方案。 功耗也很高,需要强大的电源来稳定系统。

有趣的是,双 GPU 卡是一种“两全其美”的解决方案,将多 GPU 设置的原始功能与单卡的简单性结合在一起。 然而,由于其高成本和相关的技术挑战,它们经常被视为利基产品。 随着 NVLink 等多 GPU 技术不断发展以提供更高的带宽和更低的延迟,对双 GPU 卡的需求已经减少。 尽管如此,它们仍然是 GPU 发展史上引人入胜的篇章。

NVIDIA 的 Tesla GPU 系列是企业级计算的基石,特别是在数据中心和高性能计算集群中。 虽然大多数 Tesla GPU 都是单 GPU 卡,旨在实现最高性能和效率,但也有例外,例如 Tesla K80,它在单卡上配备双 GPU。 这些多 GPU Tesla 卡针对高度并行计算进行了优化,是科学研究、机器学习和大数据分析的主要产品。 它们经过精心设计,可满足这些应用的特定需求,提供高计算吞吐量、大内存容量以及纠错码 (ECC) 内存等高级功能。 虽然这些双 GPU Tesla 卡不如单 GPU 同类产品常见,但它们在企业计算领域提供了一种强大但利基的解决方案。

NVLink 的出现

NVLink 是 2017 年随 NVIDIA Volta 架构推出的技术。这项技术不仅仅是升级,而且是对 GPU 如何互连的根本性重新思考。 NVLink 提供了显着更高的带宽(最新版本高达 900 GB/s)、更低的延迟以及允许 GPU 之间更复杂和大量互连的网状拓扑。 此外,NVLink 引入了统一内存的概念,支持连接的 GPU 之间的内存池,这对于需要大型数据集的任务来说是一个至关重要的功能。

NVLink 性能的演变

NVLink 性能的演变

SLI 与 NVLink

乍一看,人们可能会认为 NVLink 是“类固醇上的 SLI”,但这过于简单化了。 虽然这两种技术都旨在链接多个 GPU,但 NVLink 的设计考虑了不同的受众。 它专为科学研究、数据分析,尤其是人工智能和机器学习应用而设计。 更高的带宽、更低的延迟和统一的内存使 NVLink 成为应对当今计算挑战的更加灵活和强大的解决方案。

NVLink的技术骨干

NVLink 代表了多 GPU 互连技术的逻辑演变,不仅在速度方面,而且在架构设计方面。 NVLink 的结构由可以双向传输数据的高速数据通道组成。 与传统的基于总线的系统不同,NVLink采用点对点连接,有效减少瓶颈并提高数据吞吐量。 最新的迭代提供高达 900 GB/s 的带宽,比 SLI 的功能有了显着增强。

HP Z8 Fury G5 内饰

配备 8 个 A5 GPU 的 HP Z4 Fury G6000

NVLink 与众不同的关键功能之一是它支持网状拓扑的能力。 与旧技术的菊花链或中心辐射型拓扑相比,网格设置允许 GPU 之间实现更通用且数量更多的连接。 这在数据中心和高性能计算应用程序中特别有用,在这些应用程序中,复杂的数据路由是常态。

统一内存是NVLink的另一个特点。 这允许 GPU 共享公共内存池,从而实现更高效的数据共享并减少在 GPU 之间复制数据的需要。 这对于机器学习和大数据分析等应用程序来说是一个巨大的推动,在这些应用程序中,大型数据集通常超过单个 GPU 的内存容量。

NVLink 还改善了延迟,这是任何高性能计算设置中的一个关键因素。 较低的延迟可确保 GPU 之间更快的数据传输和同步,从而实现更高效的并行计算。 这是通过 NVLink 的直接内存访问 (DMA) 功能实现的,允许 GPU 直接读写彼此的内存,而不需要 CPU 的参与。

对人工智能和机器学习的影响

鉴于人工智能在现代计算中的重要性日益增加,NVLink 的优势不仅是渐进式的,而且是变革性的。 在 AI 模型训练和数据创建中,NVLink 可实现 GPU 之间更快的数据传输,从而实现更高效的并行处理。 这在处理大型训练数据集时尤其有用,这是一个与人工智能模型训练数据创建的新兴领域密切相关的主题。

随着量子模拟、实时分析和下一代人工智能算法等先进计算的需求不断增长,我们可以期待 NVLink 的功能进一步增强。 无论是带宽的增加还是促进 GPU 之间更好合作的新功能,NVLink 或其后继者无疑仍将是满足未来计算需求的核心。

从 SLI 到 NVLink 的过渡标志着多 GPU 技术的一个重要里程碑。 它反映了 NVIDIA 对创新的承诺以及对不断变化的计算环境的敏锐理解。 从游戏到人工智能,从消费应用程序到数据中心,NVLink 在游戏和 SLI 中的根源说明了需求如何孕育创新,推动技术在永无休止的改进周期中向前发展。

参与 StorageReview 

电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅