主页 企业AI NVIDIA L4 GPU 评测 – 低功耗推理向导

NVIDIA L4 GPU 评测 – 低功耗推理向导

by 乔丹拉努斯

在本次评测中,我们着眼于跨多个服务器的强大而微小的 NVIDIA L4 GPU,以及真实世界的 AI 基准测试见解。

在当今人工智能世界的创新洪流中,测量和了解各种硬件平台的功能至关重要。并非所有人工智能都需要巨大的训练 GPU 群,推理人工智能的一个重要部分通常需要较少的 GPU 能力,尤其是在边缘。在本次评测中,我们研究了三款不同戴尔服务器上的多个 NVIDIA L4 GPU,以及包括 MLperf 在内的各种工作负载,以了解 L4 的表现如何。

英伟达 L4

NVIDIA L4 GPU

L4 的核心可提供令人印象深刻的 30.3 teraFLOPs FP32 性能,非常适合高精度计算任务。其强大功能扩展到使用 TF32、FP16 和 BFLOAT16 Tensor Core 进行混合精度计算,这对于深度学习效率至关重要,L4 规格表引用了 60 至 121 teraFLOP 的性能。

在低精度任务中,L4 在 FP242.5 和 INT8 Tensor Core 中表现出色,可实现 8 teraFLOP,增强神经网络推理能力。其 24GB GDDR6 显存辅以 300GB/s 带宽,使其能够处理大型数据集和复杂模型。 L4 的能效是这里最引人注目的,72W TDP 使其适用于各种计算环境。高性能、内存效率和低功耗的结合使 NVIDIA L4 成为应对边缘计算挑战的绝佳选择。

R4 之上的 NVIDIA L760 GPU

NVIDIA L4 规格
FP 32 30.3 万亿次浮点运算
TF32 张量核心 60 万亿次浮点运算
FP16 张量核心 121 万亿次浮点运算
BFLOAT16 张量核心 121 万亿次浮点运算
FP8 张量核心 242.5 万亿次浮点运算
INT8 张量核心 242.5个TOP
GPU内存 24GB GDDR6
GPU内存带宽 300GB /秒
最大热设计功率 (TDP) 72W
外形 1 插槽薄型 PCIe
互联 PCIe Gen4 x16
规格表 L4

当然,由于 L4 的定价接近 2500 美元,A2 的价格大约是其一半,而老旧(但仍然相当强大)的 T4 的使用价格不到 1000 美元,显而易见的问题是这三种推理 GPU 之间有什么区别。

NVIDIA L4、A2 和 T4 规格 英伟达 L4 英伟达 A2 NVIDIA T4
FP 32 30.3 万亿次浮点运算 4.5 万亿次浮点运算 8.1 万亿次浮点运算
TF32 张量核心 60 万亿次浮点运算 9 万亿次浮点运算
FP16 张量核心 121 万亿次浮点运算 18 万亿次浮点运算
BFLOAT16 张量核心 121 万亿次浮点运算 18 万亿次浮点运算
FP8 张量核心 242.5 万亿次浮点运算
INT8 张量核心 242.5个TOP 36 TOPS 130 TOPS
GPU内存 24GB GDDR6 16GB GDDR6 16GB GDDR6
GPU内存带宽 300GB /秒 200GB /秒 320+ GB/秒
最大热设计功率 (TDP) 72W 40 60W 70W
外形 1 插槽薄型 PCIe
互联 PCIe Gen4 x16 PCIe Gen4 x8 PCIe Gen3 x16
规格表 L4 A2 T4

在查看这三张卡时需要了解的一件事是,它们并不完全是世代一对一的替代品,这解释了为什么 T4 在多年后仍然是某些用例的流行选择。 A2 作为 T4 的替代品问世,是一种低功耗且兼容性更强(x8 与 x16 机械)的选项。从技术上讲,L4 是 T4 的替代品,而 A2 则介于两者之间,在未来的某个时候可能会或可能不会更新。

MLPerf 推理 3.1 性能

MLPerf 是一个由学术界、研究界和工业界的人工智能领导者组成的联盟,旨在提供公平且相关的人工智能硬件和软件基准。这些基准旨在衡量机器学习硬件、软件和服务在各种任务和场景中的性能。

我们的测试重点关注两个特定的 MLPerf 基准:Resnet50 和 BERT。

  • Resnet50:这是一个主要用于图像分类的卷积神经网络。它很好地表明了系统处理与图像处理相关的深度学习任务的能力。
  • BERT(来自 Transformers 的双向编码器表示):该基准测试重点关注自然语言处理任务,深入了解系统在理解和处理人类语言方面的表现。

这两项测试对于评估人工智能硬件在涉及图像和语言处理的现实场景中的能力至关重要。

使用这些基准评估 NVIDIA L4 对于帮助了解 L4 GPU 在特定 AI 任务中的功能至关重要。它还提供了有关不同配置(单、双和四设置)如何影响性能的见解。这些信息对于寻求优化人工智能基础设施的专业人士和组织至关重要。

这些模型在两种关键模式下运行:服务器和离线。

  • 离线模式:此模式测量所有数据可同时处理时的系统性能。它类似于批处理,系统在单个批次中处理大型数据集。对于延迟不是主要问题但吞吐量和效率才是主要问题的场景来说,离线模式至关重要。
  • 服务器模式:相反,服务器模式在模拟真实服务器环境的场景中评估系统的性能,其中请求一次传入一个。此模式对延迟敏感,衡量系统响应每个请求的速度。这对于需要立即响应的实时应用程序(例如网络服务器或交互式应用程序)至关重要。

1 个 NVIDIA L4 – Dell PowerEdge XR7620

戴尔 XR4 中的 NVIDIA L7620

作为我们最近审查的一部分 戴尔 PowerEdge XR7620,配备了一个 NVIDIA L4,我们将其带到边缘运行多个任务,包括 MLPerf。

我们的测试系统配置包括以下组件:

  • 2 个至强金牌 6426Y – 16 核 2.5GHz
  • 1 个 NVIDIA L4
  • 8 个 16GB DDR5
  • 480GB BOSS RAID1
  • Ubuntu Server 22.04
  • NVIDIA 驱动程序 535
戴尔 PowerEdge XR7620 1x NVIDIA L4 评分
Resnet50 – 服务器 12,204.40
Resnet50 – 离线 13,010.20
BERT K99 – 服务器 898.945
BERT K99 – 离线 973.435

Resnet50 和 BERT K99 在服务器和离线场景中的性能几乎相同,表明 L4 在不同服务器型号上保持一致的性能。

1、2 和 4 个 NVIDIA L4 – Dell PowerEdge T560

戴尔 PowerEdge T560 塔式机 - Nvidia L4 GOU x4

我们的审查单位配置包括以下组件:

  • 2 个 Intel Xeon Gold 6448Y(每个 32 核/64 线程,225 瓦 TDP,2.1-4.1GHz)
  • 8 个 1.6TB Solidigm P5520 SSD,带 PERC 12 RAID 卡
  • 1-4 个 NVIDIA L4 GPU
  • 8 个 64GB RDIMM
  • Ubuntu Server 22.04
  • NVIDIA 驱动程序 535
从边缘回到数据中心并利用 多功能戴尔 T560 塔式机 服务器方面,我们注意到 L4 在单 GPU 测试中表现同样好。这表明两个平台都可以为L4提供坚实的基础,没有瓶颈。
戴尔 PowerEdge T560 1x NVIDIA L4 评分
Resnet50 – 服务器 12,204.40
Resnet50 – 离线 12,872.10
Bert K99 – 服务器 898.945
Bert K99 – 离线 945.146

在我们对 Dell T4 中的两个 L560 进行的测试中,我们观察到 Resnet50 和 BERT K99 基准测试的性能接近线性扩展。这种扩展证明了 L4 GPU 的效率及其协同工作的能力,而不会因开销或效率低下而造成重大损失。

戴尔 PowerEdge T560 2x NVIDIA L4 评分
Resnet50 – 服务器 24,407.50
Resnet50 – 离线 25,463.20
BERT K99 – 服务器 1,801.28
BERT K99 – 离线 1,904.10

我们在两个 NVIDIA L4 GPU 上看到的一致线性缩放令人印象深刻地扩展到具有四个 L4 单元的配置。这种扩展尤其值得注意,因为由于并行处理和资源管理的复杂性,每个添加的 GPU 保持线性性能增益变得越来越具有挑战性。

戴尔 PowerEdge T560 4x NVIDIA L4 评分
Resnet50 – 服务器 48,818.30
Resnet50 – 离线 51,381.70
BERT K99 – 服务器 3,604.96
BERT K99 – 离线 3,821.46

这些结果仅供说明之用,并非竞争性或官方 MLPerf 结果。如需完整的官方结果列表,请 访问 MLPerf 结果页面.

除了验证 NVIDIA L4 GPU 的线性可扩展性之外,我们在实验室中的测试还揭示了在不同操作场景中部署这些单元的实际影响。例如,使用 L4 GPU 的所有配置的服务器和离线模式之间的性能一致性揭示了它们的可靠性和多功能性。

这对于运营环境差异很大的企业和研究机构尤其重要。此外,我们对互连瓶颈影响最小以及多 GPU 设置中 GPU 同步效率的观察为那些希望扩展 AI 基础设施的人提供了宝贵的见解。这些见解超越了单纯的基准数据,可以更深入地了解如何在现实场景中最佳地利用此类硬件,从而指导人工智能和高性能计算基础设施中更好的架构决策和投资策略。

NVIDIA L4 – 应用程序性能

我们将新款 NVIDIA L4 与之前的 NVIDIA A2 和 NVIDIA T4 的性能进行了比较。为了展示相对于过去型号的性能升级,我们在实验室的服务器内部署了所有三个型号,并配备了 Windows Server 2022 和最新的 NVIDIA 驱动程序,并利用了我们的整个 GPU 测试套件。

这些卡经过测试 戴尔 Poweredge R760 使用以下配置:

  • 2 个英特尔至强金牌 6430(32 核,2.1GHz)
  • Windows服务器2022的
  • NVIDIA 驱动程序 538.15
  • 所有卡上均禁用 ECC 以进行 1x 采样

R4 Riser 中的 NVIDIA L760

当我们开始对这组三款企业级 GPU 进行性能测试时,请务必注意早期 A2 和 T4 型号之间独特的性能差异。当 A2 发布时,它提供了一些显着的改进,例如更低的功耗以及在更小的 PCIe Gen4 x8 插槽上运行,而不是旧版 T3 所需的更大的 PCIe Gen16 x4 插槽。它立即允许它插入更多的系统,特别是在需要更小的占地面积的情况下。

搅拌机 OptiX 4.0

Blender OptiX 是一款开源 3D 建模应用程序。该测试可以针对 CPU 和 GPU 运行,但与这里的大多数其他测试一样,我们只进行了 GPU 测试。该基准测试是使用 Blender Benchmark CLI 实用程序运行的。分数是每分钟的样本数,越高越好。

搅拌机4.0
(越高越好)
英伟达 L4 英伟达 A2 英伟达 T4
GPU Blender CLI – 怪物 2,207.765 458.692 850.076
GPU Blender CLI – Junkshop 1,127.829 292.553 517.243
GPU Blender CLI – 课堂 1,111.753 262.387 478.786

Blackmagic RAW 速度测试

我们使用 Blackmagic 的 RAW Speed Test 来测试 CPU 和 GPU,该测试可测试视频播放速度。这更像是一种混合测试,包括真实世界 RAW 解码的 CPU 和 GPU 性能。这些结果显示为单独的结果,但我们此处仅关注 GPU,因此省略了 CPU 结果。

Blackmagic RAW 速度测试
(越高越好)
英伟达 L4 英伟达 A2 NVIDIA T4
8K 图形处理器 FPS 95 FPS 38 FPS 53

Cinebench 2024 GPU

Maxon 的 Cinebench 2024 是一个 CPU 和 GPU 渲染基准测试,利用所有 CPU 核心和线程。同样,由于我们关注的是 GPU 结果,因此我们没有运行测试的 CPU 部分。分数越高越好。

Cinebench 2024
(越高越好)
英伟达 L4 英伟达 A2 NVIDIA T4
GPU 15,263 4,006 5,644

图形处理器PI

GPUPI 3.3.3 是轻量级基准测试实用程序的一个版本,旨在通过 GPU 和 CPU 使用硬件加速来计算 π (pi) 到数十亿位小数。它利用 OpenCL 和 CUDA 的计算能力,其中包括中央处理单元和图形处理单元。我们仅在所有 3 个 GPU 上运行 CUDA,这里的数字是没有添加缩减时间的计算时间。越低越好。

GPU PI 计算时间(以秒为单位)
(越低越好)
英伟达 L4 英伟达 A2 NVIDIA T4
GPUPI v3.3 – 1B 3.732s 19.799s 7.504s
GPUPI v3.3 – 32B 244.380s 1,210.801s 486.231s

虽然之前的结果仅查看了每张卡的一次迭代,但我们还有机会查看 5x NVIDIA L4 部署在 戴尔PowerEdge T560.

GPU PI 计算时间(以秒为单位)
(越低越好)
Dell PowerEdge T560(2 个 Xeon Gold 6448Y),带 5 个 NVIDIA L4
GPUPI v3.3 – 1B 0秒850毫秒
GPUPI v3.3 – 32B 50秒361毫秒

辛烷值台

OctaneBench 是 OctaneRender 的基准测试实用程序,OctaneRender 是另一种支持 RTX 的 3D 渲染器,类似于 V-Ray。

 辛烷值(越高越好)
现场 核心 英伟达 L4 英伟达 A2 NVIDIA T4
室内情况 资讯频道 15.59 4.49 6.39
直接照明 50.85 14.32 21.76
路径追踪 64.02 18.46 25.76
主意 资讯频道 9.30 2.77 3.93
直接照明 39.34 11.53 16.79
路径追踪 48.24 14.21 20.32
亚视 资讯频道 24.38 6.83 9.50
直接照明 54.86 16.05 21.98
路径追踪 68.98 20.06 27.50
盒子 资讯频道 12.89 3.88 5.42
直接照明 48.80 14.59 21.36
路径追踪 54.56 16.51 23.85
总得分 491.83 143.71 204.56

Geekbench 6 显卡

Geekbench 6 是衡量整体系统性能的跨平台基准测试。 CPU 和 GPU 基准测试都有测试选项。分数越高越好。同样,我们只查看 GPU 结果。

您可以在以下位置找到与任何您想要的系统的比较 Geekbench浏览器.

Geekbench 6.1.0
(越高越好)
英伟达 L4 英伟达 A2 NVIDIA T4
Geekbench GPU OpenCL 156,224 35,835 83,046

乐士马克

LuxMark 是开源 3D 渲染引擎 LuxRender 维护者开发的 OpenCL 跨平台基准测试工具。 该工具着眼于 3D 建模、照明和视频工作中的 GPU 性能。 在本次评测中,我们使用了最新版本 v4alpha0。 在 LuxMark 中,分数越高越好。

Luxmark v4.0alpha0
OpenCL GPU
(越高越好)
英伟达 L4 英伟达 A2 NVIDIA T4
大厅长凳 14,328 3,759 5,893
食物长凳 5,330 1,258 2,033

GROMACS CUDA

我们还源编译了 GROMACS,这是一款专门针对 CUDA 的分子动力学软件。此定制编译旨在利用 5 个 NVIDIA L4 GPU 的并行处理功能,这对于加速计算模拟至关重要。

该过程涉及使用 nvcc(NVIDIA 的 CUDA 编译器)以及适当优化标志的多次迭代,以确保二进制文件正确调整为服务器的架构。 GROMACS 编译中包含 CUDA 支持,使软件能够直接与 GPU 硬件连接,从而大大缩短复杂模拟的计算时间。

测试:Gromacs 中的定制蛋白质相互作用

利用社区提供的来自我们多样化 Discord 的输入文件(其中包含为特定蛋白质相互作用研究定制的参数和结构),我们启动了分子动力学模拟。 结果非常显着——系统的模拟速度达到了每天 170.268 纳秒。

GPU 系统 纳秒/天 核心时间(秒)
英伟达 A4000 白盒 AMD 锐龙 5950x 84.415 163,763
RTX NVIDIA 4070 白盒 AMD 锐龙 7950x3d 131.85 209,692.3
5x NVIDIA L4 戴尔 T560 带 2 个英特尔至强金牌 6448Y 170.268 608,912.7

不仅仅是人工智能

随着人工智能的大肆宣传,人们很容易被 NVIDIA L4 上模型的性能所吸引,但它还有其他一些技巧,为视频应用开辟了可能性的领域。它可以托管多达 1,040 个 1p720 并发 AV30 视频流。这可以改变内容向边缘用户直播的方式,增强创意故事讲述,并呈现沉浸式 AR/VR 体验的有趣用途。

NVIDIA L4 在优化图形性能方面也表现出色,这从其实时渲染和光线追踪功能中可见一斑。在边缘办公室中,L4 能够在 VDI 中为最需要高质量、实时图形渲染的最终用户提供强大而强大的加速图形计算。

关闭的思考

NVIDIA L4 GPU 为边缘人工智能和高性能计算提供了坚实的平台,在多种应用程序中提供无与伦比的效率和多功能性。它能够处理密集型人工智能、加速或视频管道并优化图形性能,使其成为边缘推理或虚拟桌面加速的理想选择。 L4 结合了高计算能力、先进的内存功能和能源效率,使其成为推动边缘工作负载加速的关键角色,尤其是在人工智能和图形密集型行业。

NVIDIA L4 扭曲堆栈

毫无疑问,人工智能是当今 IT 飓风的中心,对 H100/H200 GPU 的需求持续飙升。但是,还大力推动将一组更强大的 IT 工具包部署到创建和分析数据的边缘。在这些情况下,需要更合适的 GPU。 NVIDIA L4 在这方面表现出色,应该成为边缘推理的默认选项,无论是作为单个单元还是像我们在 T560 中测试的那样一起扩展。

NVIDIA L4 产品页面

参与 StorageReview

订阅电子邮件 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅