首页 企业版 DeepSeek-R1 如何克服硬件限制实现 AI 突破

DeepSeek-R1 如何克服硬件限制实现 AI 突破

by 迪维扬什·贾恩

DeepSeek-R1 是一个可与 OpenAI 的最佳模型相媲美的开源 AI 模型,证明了创新不仅仅关乎计算,还关乎智能工程。

在人工智能领域,一个新的参与者席卷了整个社区。DeepSeek-R1 是一个开源推理模型,因其突破性的性能而成为头条新闻。该模型已成为一个强有力的竞争对手,在功能上可与 OpenAI 的旗舰 O1 系列模型相媲美,同时成本效率明显更高。更令人印象深刻的是,DeepSeek 团队在遵守严格的 GPU 出口法规的情况下,以更少、更有限的资源实现了这一壮举。但 DeepSeek 到底是什么?为什么这一发展是人工智能研究向前迈出的一大步?

DeepSeek 是谁?什么是推理模型?

DeepSeek 是一家位于中国的雄心勃勃的人工智能研究实验室,其创新且易于理解的人工智能方法迅速获得了认可。通过专注于开源开发,他们将自己定位为人工智能社区的关键参与者,为更广泛的受众创建高性能模型。他们的最新作品 DeepSeek-R1 是一种“推理模型”,这是一种人工智能模型,旨在在逻辑推理、解决问题和理解复杂关系方面表现出色,而不仅仅是基本的模式识别。

DeepSeek-R1 等推理模型与传统的大型语言模型 (LLM) 不同,它模拟了逐步的思维过程。R1 不是简单地根据数据中的模式生成答案,而是将复杂问题分解为更小的逻辑步骤,然后得出解决方案。虽然这种方法在推理过程中可能需要更长的时间,但它使模型在需要深入理解的任务(例如数学推理、编程辅助和决策)上的表现明显更好。

为什么 DeepSeek-R1 会改变游戏规则

DeepSeek-R1 的真正与众不同之处在于它是开源的。在一个领先的 AI 模型经常被封锁的行业中,DeepSeek 发布了他们的模型和一份详细的研究论文,概述了他们的具体方法。这一大胆举措与 OpenAI 等组织通常封闭的性质截然不同。

这种开放性在人工智能社区引发了一波实验浪潮。世界各地的开发人员和研究人员都在托管 DeepSeek-R1,以探索和测试其功能。值得注意的是,有一些举措旨在复制本文概述的策略,例如 Huggingface 在 GitHub 上的 Open-R1 项目这是 DeepSeek-R1 的开发中版本,完全开放,包括训练代码。这些努力进一步扩大了 R1 的可访问性和协作潜力,使更广泛的受众能够参与并利用其创新。

DeepSeek-R1 的发布对 AI 社区及其他领域具有深远影响。通过公开提供其模型和研究成果,DeepSeek 降低了 AI 创新的门槛。独立研究人员、初创公司和业余爱好者现在可以使用这种通常需要大量财务和计算资源才能开发的尖端推理模型。此版本的开源性质已经激发了社区内的创造性实验;开发人员正在尝试 将 DeepSeek-R1 的推理能力与其他模型相结合 来提升模型的性能。 一个值得注意的例子是与 Anthropic 的 Claude Sonnet 3.5 的集成,后者以强大的编码性能而闻名;当与 DeepSeek 的 R1 的推理能力相结合时,它能够在 类似 Aidar Bench 的基准测试.

了解 Nvidia H800 及其与 H100 的主要区别

乍一看,Nvidia H800 似乎是 H100 的缩小版,最明显的区别在于 FP64 计算性能。H100 拥有 34 TFLOP 的 FP64 性能,而 H1 只有 800 TFLOP。然而,对于大多数 AI 工作负载来说,这种差异并不是什么大问题。现代 AI 模型通常使用 BF16 或 FP16 等低精度格式进行训练,以优化速度和效率。FP64 精度主要包含在 GPU 中,以保持与传统工具和科学计算应用程序的兼容性,其中双精度计算至关重要。对于 AI 训练,FP64 性能很少成为瓶颈。

H800 真正的挑战在于其互连速度。它的 NVLink 4.0 互连带宽为 400GB/s,不到 H900 提供的 100GB/s 的一半。带宽减少 50% 以上对于多 GPU 设置具有重大影响,因为数千个 GPU 互连以进行大规模训练。

Nvidia H100 SXM Nvidia H800 SXM
FP64 34 TFLOPs 1 TFLOP
FP64 张量核心 67 TFLOPs 1 TFLOP
FP32 67 TFLOPs 67 TFLOPs
FP32 张量核心 989 每秒浮点运算次数 989 每秒浮点运算次数
BF16 张量核心 1,979  每秒浮点运算次数 1,979  每秒浮点运算次数
FP16 张量核心 1,979  每秒浮点运算次数 1,979  每秒浮点运算次数
FP8 张量核心 3,958 每秒浮点运算次数 3,958 每秒浮点运算次数
INT8 张量核心 3,958 最高额 3,958 最高额
GPU内存 80 GB 80 GB
GPU内存带宽 3.35 TB / s 3.35 TB / s
最大热设计功率 (TDP) 700W 700W
NVIDIA NVLink 4.0 互连速度 900GB /秒 400GB /秒

互连速度为何如此重要:对训练的影响

在大规模 AI 训练中,GPU 通常使用各种并行技术协同工作。一些常见的并行技术包括数据并行、模型并行、流水线并行和张量并行。张量并行是指将大型张量分散到多个 GPU 上进行计算,这种技术对互连带宽特别敏感。 

但张量到底是什么?简单来说,张量是人工智能模型中用来表示输入、权重和中间计算的基本数据结构。

在训练大型 AI 模型时,这些张量可能会变得非常庞大,以至于无法放入单个 GPU 的内存中。为了解决这个问题,张量被拆分到多个 GPU 上,每个 GPU 处理一部分张量。这种划分允许模型跨多个 GPU 扩展,从而能够训练比原本更大的模型。

然而,分割张量需要 GPU 之间频繁通信以同步计算并共享结果。这时互连速度就变得至关重要。H800 中 NVLink 带宽的降低会减慢此阶段 GPU 之间的通信速度,从而导致延迟增加并降低整体训练效率。

在涉及具有数十亿个参数的大型模型的场景中,这种瓶颈变得更加明显,因为 GPU 之间需要频繁通信来同步张量计算。虽然张量并行性对较慢的互连最为敏感,但它并不是唯一受到影响的方面。

由于互连速度较慢,在 H800 上扩展 AI 训练变得越来越具有挑战性,这对于严重依赖高效多 GPU 通信的工作负载来说并不理想。

DeepSeek 模型训练

考虑到在 H800 GPU 上扩展训练的挑战,自然而然地出现了一个问题:DeepSeek 如何训练像 R1 这样最先进的 (SOTA) AI 模型? DeepSeek-R1 是基于 DeepSeek-v3 构建的, 一个 671B 参数模型。这个基础 DeepSeek-v3 模型经过进一步的强化学习 (RL) 训练,以在模型中诱导推理行为。 

需要注意的一件重要事情是,前面提到的数字和技术是指 DeepSeek-v3 研究论文。DeepSeek-R1 需要额外的训练资源,但具体细节尚不清楚。不过,DeepSeek-v3 是一个 SOTA 模型,DeepSeek-v3 论文中提到的许多技术很可能被带到了 R1 的训练中。

此外,这些数字仅针对最终成功的训练运行进行报告。这不考虑对架构、算法或数据的实验。但即使考虑到这一点,根据 DeepSeek 的自我报告,它实现这一壮举所需的资源比 Meta 的 Llama 要少得多。

那么,澄清这一点之后,DeepSeek 是如何训练出如此令人印象深刻的模型的呢? 本文不深入探讨细节,因为这超出了本文的范围,用于训练 DeepSeek v3 的技术可以分为两大类:利用低精度 FP8 进行训练和优化 GPU 间通信以最大限度地减少昂贵的操作。大规模采用 FP8 混合精度训练是首次减少权重大小并提高计算吞吐量 (TFLOP),从而实现更快、更高效的训练。另一方面,通信优化(例如最大限度地减少对张量并行性的需要和改进跨节点通信)解决了 H800 GPU 有限的互连带宽所带来的挑战。

从历史上看,FP8 并未被广泛用于训练,因为梯度(在反向传播期间更新模型权重至关重要)在以如此低精度格式表示时通常无法收敛。FP8 有限的动态范围和精度使其难以准确捕捉微小的权重更新,从而导致训练不稳定。DeepSeek-v3 通过引入一些细粒度量化技术(例如逐块和逐块缩放)克服了这一挑战,这使模型能够自适应地缩放激活和权重以更好地处理异常值。这与通过中等更高精度 FP32 提升而提高的累积精度相结合,从而可以使用 FP8 进行训练。

在通信方面,开发了“DualPipe 算法”来重叠计算和通信,从而显著减少流水线气泡。什么是流水线气泡?在流水线并行中,训练分为几个阶段并分布在各个 GPU 上。当采用这种策略时,当某些 GPU 等待流水线中前几个阶段或后续阶段的数据准备就绪时,可能会出现空闲时间段,从而减少训练集群的 MFU。DualPipe 通过重叠计算和通信、隐藏延迟和保持 GPU 忙碌来最大限度地减少这些低效率。除了 DualPipe 之外,还实施了自定义跨节点全对全通信内核,以充分利用 NVLink 和 InfiniBand 带宽,确保跨节点高效扩展。

这些创新经过精心设计,以克服受限的硬件限制并实现 DeepSeek 模型的高效训练。

这对其他人工智能实验室和整个人工智能社区意味着什么?

DeepSeek-R1 的发布在 AI 社区引发了重大讨论和反思。虽然有些人对其发布的时间和方法相互指责,但我们必须认识到 AI 模型开发的更广泛背景。训练 SOTA 模型是一个耗时的过程,我们今天看到的模型很可能早在 2023 年底或 2024 年初就开始了训练周期。

我们也不应忽视 AI 模型开发中不断发展的范式。从历史上看,由于缺乏来自其他模型的高质量合成数据,并且扩展预训练可以显着提高性能,因此对海量数据集进行预训练至关重要。因此,早期模型严重依赖于抓取的数据和扩展预训练来实现其功能。然而,包括 DeepSeek-R1 在内的当前一代模型在训练的各个阶段都从合成数据中受益匪浅。OpenAI 的 o1 系列模型也可能基于之前的 GPT 4o 模型,并且已经从庞大的 1.8 万亿参数 GPT 4 模型发展为更高效的 Turbo 模型,最后可能是我们今天使用的更小的 4o 模型。

值得注意的是,DeepSeek-R1 只是一个开始。其他组织,如 Anthropic、Meta、Mistral 和 Cohere,几乎肯定也在研究类似的推理模型。R1 的发布标志着新一波 AI 模型的开始,这些模型将继续突破推理、解决问题和特定任务性能的界限。GPU 能力的不断增强进一步加速了这一趋势,使实验室能够生成更多合成数据以进行微调和强化学习 (RL)。这反过来又使模型能够在代码生成和逻辑推理等复杂任务中表现出色。

DeepSeek 的开源计划将对 AI 社区产生深远影响。公开他们的模型和方法推动了开源社区的创新,并激励其他实验室采用类似方法。DeepSeek 对开源协作价值的认识建立在 Meta、阿里巴巴 Qwen 团队等组织开创的先例之上。如果没有这些先前的贡献,AI 社区可能远不如今天先进。

结语

DeepSeek-R1 的开源发布是朝着正确方向迈出的一步。虽然闭源模型有其存在的意义,但开源运动确保了创新能够被更广泛的受众所接受,从而营造了一个更具包容性和竞争力的环境。

人工智能是一个迭代过程,开源社区正是凭借这种迭代特性蓬勃发展,以前所未有的方式加速了发展。许多人坚信开源是唯一的出路,确保未来没有任何一家实体拥有人工智能或潜在的 AGI(通用人工智能)。中国领先的人工智能实验室之一也秉持这一理念,公开支持和贡献开源运动,这恰恰证明了开源的重要性。

归根结底,DeepSeek-R1 不仅仅是一个模型,更是一次行动号召。它激励研究人员、开发人员和爱好者突破可能的界限,利用他们拥有的资源进行创新,并为快速发展的领域做出贡献。随着人工智能领域的不断发展,开源社区的迭代和协作精神将继续成为驱动力,以前所未有的方式塑造人工智能的未来。

参与 StorageReview

电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅