NVIDIA GeForce RTX 5090 评测:30 年 2025 月 1,999 日发布,建议零售价为 5090 美元。XNUMX 会重新定义高性能游戏和 AI 工作负载吗?
NVIDIA GeForce RTX 5090 将于 30 年 2025 月 1,999 日上市,建议零售价为 32 美元,它将重新定义高性能游戏和 AI 工作负载。这款旗舰 GPU 基于 Blackwell 架构构建,通过 7GB GDDR512 内存、50 位内存总线以及 CUDA、Tensor 和 RT 核心性能的大幅提升突破了计算能力的界限。至关重要的是,NVIDIA 为 XNUMX 系列平台提出了多项 AI 要求,本篇评测旨在探索这些要求。
RTX 5090 的改进核心是具有多帧生成的 DLSS 4,利用 AI 为每个渲染帧生成最多三帧额外帧,在支持的游戏中实现高达 8 倍的性能提升。基于 Transformer 的新 AI 模型增强了光线重建、超分辨率和 DLAA,显著提高了视觉保真度,同时通过 NVIDIA Reflex 2 降低了延迟。
除了明显的游戏优势之外,RTX 5090 还被誉为 AI 强国,它以原生 FP4 精度加速生成 AI 工作流程,与之前的 FP16 实现相比,将模型内存需求减少了一半。我们最近研究了 RTX 4090 与 RTX 6000 Ada 看看以游戏为中心的显卡能否在基于工作站的 AI 工作负载方面与生产力强国抗衡。结果通常显示 6000 Ada 占据主导地位,但对于预算有限的人来说,4090 的表现令人惊讶。新款 RTX 5090 旨在通过多项嵌入式 AI 增强功能进一步模糊游戏和生产力 GPU 之间的界限。
NVIDIA GeForce RTX 5090 Blackwell 架构与硬件创新
RTX 5090 的核心包含 21,760 个 CUDA 核心,比 RTX 33 的 4090 个核心增加了 16,384%。如此庞大的核心数量,加上第五代 Tensor 核心和第四代 RT 核心,旨在在游戏、计算密集型工作负载和 AI 加速方面提供无与伦比的性能。
RTX 680 中 Tensor Cores 数量从 512 个增加到 4090 个,可提供更快的矩阵运算,从而实现更高效的 AI 推理。 同时,170 个 RT 核心(比 RTX 33 的 4090 个增加了 128%)增强了光线追踪性能,使游戏和专业渲染任务中的灯光、阴影和反射更加逼真。 这些升级意味着 FP104.8 性能达到了惊人的 16 TFLOPS,比 RTX 27 的 4090 TFLOPS 提高了 82.58%。
RTX 5090 还引入了 32GB GDDR7 内存,与 RTX 4090 的 24GB GDDR6X 相比,带宽和容量有了显著升级。5090 在 512 位内存总线上运行,实现了惊人的 1.79 TB/s 内存带宽,几乎是 RTX 1.01 4090 TB/s 的两倍。这种巨大的带宽提升对于 AI 工作负载尤其重要,因为推理需要快速访问模型权重。更快的内存可以更流畅地处理复杂的 AI 模型,从而减少推理过程中的延迟。此外,增加的带宽加速了 GPU 直接存储,允许使用诸如直接从快速存储设备按顺序加载大量模型权重之类的用例。这将使运行最大的 AI 模型成为可能,而无需将它们完全加载到内存中。
NVIDIA GeForce RTX 50 系列规格
Nvidia RTX 5090 在几乎所有方面都比 RTX 4090 有了显著的升级。以下是两款 GPU 的详细比较:
GPU 比较 | NVIDIA RTX 5090 | NVIDIA RTX 4090 | NVIDIA RTX 5080 | NVIDIA RTX 5070 |
GPU名称 | GB202 | AD102 | GB203 | GB205 |
卓越 | 布莱克威尔2.0 | 阿达洛夫莱斯 | 布莱克威尔2.0 | 布莱克威尔2.0 |
工艺尺寸 | 4纳米 | 5纳米 | 4纳米 | 4纳米 |
晶体管 | 92,200千万 | 76,300千万 | 45,600千万 | 31,000千万 |
密度 | 123.9米 / 平方毫米 | 125.3米 / 平方毫米 | 120.6米 / 平方毫米 | 117.9米 / 平方毫米 |
模具尺寸 | 744mm² | 609mm² | 378mm² | 263mm² |
槽宽 | 双槽 | 三槽 | 双槽 | 双槽 |
尺寸 | 304毫米x 137毫米x 48毫米 | 304毫米x 137毫米x 61毫米 | 304毫米x 137毫米x 48毫米 | 无 |
TDP | 575W 瓦 | 450W 瓦 | 360W 瓦 | 250W 瓦 |
输出 | 1 个 HDMI 2.1b,3 个 DisplayPort 2.1b | 1 个 HDMI 2.1、3 个 DisplayPort 1.4a | 1 个 HDMI 2.1b、3 个 DisplayPort 2.1b | 1 个 HDMI 2.1b、3 个 DisplayPort 2.1a |
电源连接器 | 1x 16针 | 1x 16针 | 1x 16针 | 1x 16针 |
总线接口 | PCIe 5.0 x16 | PCIe 4.0 x16 | PCIe 5.0 x16 | PCIe 5.0 x16 |
基地时钟 | 2017 MHz | 2235 MHz | 2295 MHz | 2165 MHz |
提升时钟 | 2407 MHz | 2520 MHz | 2617 MHz | 2510 MHz |
记忆时钟 | 2209 MHz(有效28 Gbps) | 1313 MHz(有效21 Gbps) | 2366 MHz(有效30 Gbps) | 2209 MHz(有效28 Gbps) |
内存大小 | 32 GB | 24 GB | 16 GB | 12 GB |
内存类型 | GDDR7 | GDDR6X | GDDR7 | GDDR7 |
Magistrala pamięci | 512 bit | 384 bit | 256 bit | 192 bit |
内存带宽 | 1.79 TB / s | 1.01 TB / s | 960.0 GB /秒 | 672.2 GB /秒 |
CUDA核心 | 21,760 | 16,384 | 10,752 | 6,144 |
张量核心 | 680 | 512 | 336 | 192 |
个ROPs | 192 | 176 | 128 | 64 |
SM 计数 | 170 | 128 | 84 | 48 |
张量核心 | 680 | 512 | 336 | 192 |
RT核心 | 170 | 128 | 84 | 48 |
L1缓存 | 128 KB(每个 SM) | 128 KB(每个 SM) | 128 KB(每个 SM) | 128 KB(每个 SM) |
L2缓存 | 88 MB | 72 MB | 64 MB | 40 MB |
像素率 | 462.1 GPixel / s | 443.5 GPixel / s | 335.0 GPixel / s | 160.6 GPixel / s |
纹理速率 | 1,637 格塞尔/秒 | 1,290 格塞尔/秒 | 879.3 格塞尔/秒 | 481.9 格塞尔/秒 |
FP16(一半) | 104.8 万亿次浮点运算 (1:1) | 82.58 万亿次浮点运算 (1:1) | 56.28 万亿次浮点运算 (1:1) | 30.84 万亿次浮点运算 (1:1) |
FP32(浮点数) | 104.8 TFLOPS | 82.58 TFLOPS | 56.28 TFLOPS | 30.84 TFLOPS |
FP64 (双精度) | 1.637 万亿次浮点运算 (1:64) | 1,290 GFLOPS(1:64) | 879.3 GFLOPS(1:64) | 481.9 GFLOPS(1:64) |
发行价格(美元) | $1,999 | $1,599 | $999 | $549 |
NVIDIA GeForce RTX 5090 的构建和设计
RTX 5090 Founders Edition 保留了 Nvidia 的时尚工业设计语言,并进行了细微的改进。该卡长 304 毫米,宽 137 毫米,适合标准的 2 插槽配置,因此其功能强大,体积却出奇地小巧。
Nvidia 为 RTX 5090 引入了双流通设计,可提高冷却效率和气流。该卡采用 Nvidia 所谓的 3D 蒸汽室,搭配双轴流风扇,即使在高负荷下也能控制温度。虽然不拿在手里很难看清,但你可以通过每个风扇后面的两个散热器部分看到光线。
显卡的中央部分是电路板,小管将电线连接到每个视频输出。这大大提高了 RTX 5090 的冷却能力,使其能够保持与 RTX 4090 类似的性能,即使功耗显著增加。
RTX 5090 的一大亮点是采用了出厂时直接涂抹的液态金属导热膏。这确保了比传统导热膏更好的导热性,使 GPU 能够保持较低的温度和更高的持续性能。
尽管最大功耗增加到 575W,RTX 5090 仍保留了紧凑的双槽外形,与笨重的三槽 RTX 4090 相比,它更适合高端 PC 构建。
该卡还支持 PCIe Gen 5,可为下一代主板和外围设备提供更高的带宽。因此,它已为未来的游戏和内容创作做好了准备。
人工智能游戏时代
RTX 5090 不只是拥有强大的性能,它还利用 AI 重新定义游戏。Nvidia 将其 AI 驱动功能提升到了一个新的水平,使这一代产品成为性能和视觉保真度的革命性产品。
DLSS 4:多帧生成
多年来,DLSS(深度学习超级采样)一直是 Nvidia GPU 的基石,但 RTX 5090 引入了 DLSS 4,将这一技术提升到了一个全新的水平。虽然以前版本的 DLSS 可以为每个传统渲染的帧生成一个 AI 帧,但 DLSS 4 现在每个渲染的帧最多可以生成三个 AI 帧。
这使得游戏体验异常流畅,即使在最苛刻的游戏上将所有设置调到最高。当与 Nvidia 的延迟减少技术 Reflex 2 结合使用时,游戏看起来比以往更好,响应速度也更快。
射线重建
光线追踪一直是一项要求很高的功能,但 RTX 5090 的 AI 光线重建改变了这一局面。通过用 AI 训练的网络取代传统的降噪器,Nvidia 显著提高了光线追踪反射、阴影和照明的质量。
此功能通过为光线追踪场景生成额外像素来提高图像质量,使其看起来更加逼真和身临其境。这是光线追踪向前迈出的重要一步,尤其是在要求苛刻的游戏中。
AV1 编码和解码
对于内容创作者来说,RTX 5090 包含 3 个第 9 代 NVENC 编码器和 2 个第 6 代 NVDEC 解码器,具有完全 AV1 兼容性。这确保了更快、更高效的视频编码和解码,使其成为流媒体和视频编辑的绝佳选择。
NVIDIA GeForce RTX 5090 评测 – 性能基准
为了充分利用新款 NVIDIA GeForce RTX 5090 的优势,我们利用了 AMD ThreadRipper 平台。该系统配置为 64 核 CPU 和水冷回路。它具有充足的底层 CPU 马力,可让 GPU 不受阻碍地完成工作。系统的完整配置如下所列。
StorageReview AMD ThreadRipper 测试平台
- 主板: 华硕 Pro WS TRX50-SAGE WIFI
- CPU: AMD Ryzen Threadripper 7980X 64 核
- RAM: 32GB DDR5 4800MT/s
- 存储: 2TB 三星 980 Pro
- OS: Windows 11 Pro for Workstations
- 司机: NVIDIA 571.86 GameReady 驱动程序
在撰写本文时,我们使用了 早期发布的 NVIDIA 571.86 GameReady 驱动程序 对于我们测试的 GPU。但是,需要注意的是,并非所有应用程序都完全支持新的 Blackwell 架构。我们使用的许多测试都已更新,许多测试仍在更新中。因此,我们将继续探索较旧的测试,因为它们已针对 NVIDIA 的新 50 系列 GPU 进行了优化。
UL Procyon:AI 文本生成
- Procyon AI 文本生成基准 Benchmark 通过提供紧凑一致的评估方法简化了 AI LLM 性能测试。它允许在多个 LLM 模型上进行重复测试,同时最大限度地降低大模型大小和可变因素的复杂性。它与 AI 硬件领导者共同开发,优化了本地 AI 加速器的使用,以实现更可靠、更高效的性能评估。下面测量的结果是使用 TensorRT 测试的。
在 Procyon® AI 文本生成基准测试中,Nvidia RTX 5090 以最高 总成绩 在所有测试型号中性能最快:
- 披:RTX 5,749 为 5090,优于 RTX 4090 的 4,958 和 RTX 6000 Ada 的 4,508。
- 寒冷西北风:RTX 6,267 5090,其次是 RTX 4090 5,094 和 RTX 6000 Ada 4,255。
- 骆马3:RTX 6,104 为 5090,其中 RTX 4090 为 4,849,RTX 6000 Ada 为 4,026。
- 骆马2:RTX 6,591 为 5090,领先于 RTX 4090 的 5,013 和 RTX 6000 Ada 的 3,957。
在 总持续时间相比之下,RTX 5090 的表现也优于其他 GPU:
- 披:10.280 秒 RTX 5090,比 RTX 4090 12.872 秒和 RTX 6000 Ada 13.869 秒快。
- 寒冷西北风:RTX 12.593 为 5090 秒,RTX 4090 为 17.010 秒,RTX 6000 Ada 为 19.092 秒。
- 骆马3:RTX 14.304 为 5090 秒,领先于 RTX 4090 的 19.991 秒和 RTX 6000 Ada 的 22.062 秒。
- 骆马2:23.018 秒 RTX 5090,比 RTX 4090 32.448 秒和 RTX 6000 Ada 38.923 秒快。
RTX 5090 在本次测试的每个类别中始终提供卓越的整体性能和更快的处理时间。
UL Procyon:AI 文本生成 | NVIDIA RTX 5090 | NVIDIA RTX 4090 | NVIDIA RTX 6000 Ada |
菲总分 | 5,749 | 4,958 | 4,508 |
Phi 输出时间到第一个标记 | 0.244小号 | 0.255小号 | 0.288小号 |
每秒输出 Phi 令牌数 | 314.435 个代币/秒 | 244.343 个代币/秒 | 228.359 个代币/秒 |
Phi 总时长 | 10.280小号 | 12.872小号 | 13.869小号 |
米斯特拉尔总成绩 | 6,267 | 5,094 | 4,255 |
Mistral 输出第一个令牌的时间 | 0.297小号 | 0.322小号 | 0.419小号 |
每秒 Mistral 输出代币数 | 255.945 个代币/秒 | 183.266 个代币/秒 | 166.633 个代币/秒 |
米斯特拉尔总持续时间 | 12.593小号 | 17.010小号 | 19.092小号 |
Llama3 总体评分 | 6,104 | 4,849 | 4,026 |
Llama3 输出第一个标记的时间 | 0.234小号 | 0.259小号 | 0.348小号 |
Llama3 每秒输出令牌数 | 214.285 个代币/秒 | 150.039 个代币/秒 | 138.620 个代币/秒 |
Llama3 总时长 | 14.304小号 | 19.991小号 | 22.062小号 |
Llama2 总体评分 | 6,591 | 5,013 | 3,957 |
Llama2 输出第一个标记的时间 | 0.419小号 | 0.500小号 | 0.679小号 |
Llama2 每秒输出令牌数 | 134.502 个代币/秒 | 92.853 个代币/秒 | 78.532 个代币/秒 |
Llama2 总时长 | 23.018小号 | 32.448小号 | 38.923小号 |
UL Procyon: 人工智能图像生成
- Procyon AI 图像生成基准 提供一致、准确的方法来衡量各种硬件(从低功耗 NPU 到高端 GPU)的 AI 推理性能。它包括三项测试:针对高端 GPU 的 Stable Diffusion XL (FP16)、针对中等功率 GPU 的 Stable Diffusion 1.5 (FP16) 和针对低功耗设备的 Stable Diffusion 1.5 (INT8)。基准测试使用每个系统的最佳推理引擎,确保结果公平且具有可比性。
在 Procyon AI 图像生成基准测试中,Nvidia RTX 5090 在所有测试中均优于其他 GPU:
- 稳定扩散 1.5 (FP16):RTX 5090 领先,总分为 8,193,生成时间为 12.204 秒,图像生成速度为 0.763 秒/图像。
- 稳定扩散 1.5 (INT8):RTX 5090 再次领先,总分为 79,272,生成时间为 3.154 秒,图像生成速度为 0.394 秒/图像。
- 稳定扩散 XL (FP16):最后,RTX 5090 再次领先,总分为 7,179,生成时间为 83.573 秒,图像生成速度为 5.223 秒/图像。
UL Procyon:AI 图像生成 | NVIDIA RTX 5090 | NVIDIA RTX 4090 | NVIDIA RTX 6000 Ada |
稳定扩散 1.5 (FP16) – 总体得分 | 8,193 | 5,260 | 4,230 |
稳定扩散 1.5 (FP16) – 总时间 | 12.204小号 | 19.011小号 | 23.639小号 |
稳定扩散 1.5 (FP16) – 图像生成速度 | 0.763 秒/图像 | 1.188 秒/图像 | 1.477 秒/图像 |
稳定扩散 1.5 (INT8) – 总体得分 | 79,272 | 62,160 | 55,901 |
稳定扩散 1.5 (INT8) – 总时间 | 3.154小号 | 4.022小号 | 4.472小号 |
稳定扩散 1.5 (INT8) – 图像生成速度 | 0.394 秒/图像 | 0.503 秒/图像 | 0.559 秒/图像 |
稳定扩散 XL (FP16) – 总体得分 | 7,179 | 5,025 | 3,043 |
稳定扩散 XL (FP16) – 总时间 | 83.573小号 | 119.379小号 | 197.172小号 |
稳定扩散 XL (FP16) – 图像生成速度 | 5.223 秒/图像 | 7.461 秒/图像 | 12.323 秒/图像 |
乐士马克
Luxmark 是一个 GPU 基准测试,它使用开源光线追踪渲染器 LuxRender 来评估系统在处理高度详细的 3D 场景方面的性能。该基准测试适用于评估服务器和工作站的图形渲染能力,特别是对于视觉效果和建筑可视化应用程序,其中准确的光模拟至关重要。
在 Luxmark OpenCL 基准测试中,NVIDIA RTX 5090 在 Hall 和 Food GPU 测试中均获得最高分:
- 食物评分:RTX 23,141 为 5090,超越 RTX 4090 的 17,171 和 RTX 6000 Ada 的 14,873。
- 霍尔斯:RTX 51,725 为 5090,优于 RTX 4090 的 38,887 和 RTX 6000 Ada 的 32,132。
Luxmark(越高越好) | NVIDIA RTX 5090 | NVIDIA RTX 4090 | NVIDIA RTX 6000 Ada |
食物评分 | 23,141 | 17,171 | 14,873 |
霍尔斯 | 51,725 | 38,887 | 32,132 |
Geekbench 6
Geekbench 6 是衡量整体系统性能的跨平台基准测试。Geekbench 浏览器可让您将任何系统与其进行比较。
NVIDIA RTX 5090 凭借 374,807 的 Geekbench GPU OpenCL 得分领先。该得分优于 RTX 6000 Ada 的 336,882 和 RTX 4090 的 333,384,使其成为本次比较中表现最好的产品。
Geekbench(越高越好) | NVIDIA RTX 5090 | NVIDIA RTX 4090 | NVIDIA RTX 6000 Ada |
GPU OpenCL 分数 | 374,807 | 333,384 | 336,882 |
的V-Ray
- 的V-Ray 基准测试使用先进的 V-Ray 6 引擎测量 CPU、NVIDIA GPU 或两者的渲染性能。它使用快速测试和简单的评分系统让用户评估和比较其系统的渲染能力。对于寻求高效性能见解的专业人士来说,它是一款必不可少的工具。
在本次测试中,NVIDIA RTX 5090 以 14,764 的惊人成绩领先,远远超过 RTX 4090 的 10,847 和 RTX 6000 Ada 的 10,766。RTX 5090 再次在渲染性能上占据明显优势。
V-Ray(越高越好) | NVIDIA RTX 5090 | NVIDIA RTX 4090 | NVIDIA RTX 6000 Ada |
虚拟路径 | 14,764 | 10,847 | 10,766 |
NVIDIA GeForce RTX 5090 功耗
功耗是任何高端计算平台的重要组成部分。每一代新 GPU 在负载下都会消耗更多电量,这意味着需要更大的电源和充足的冷却气流。然而,功耗与性能还有另一个方面:更快的 GPU 可能会达到更高的峰值,但每个工作负载的持续时间会减少。
NVIDIA 在 CES 2025 的编辑日上讨论了 Blackwell 架构的改进的能效,我们希望看到它在 AI 驱动的工作负载中发挥作用。利用 Quarch 电源分析仪 在我们的测试实验室中,我们测量了运行 Procyon AI 图像生成器 稳定 Diffusion XL FP16 测试。此工作负载将每个 GPU 推至其功率极限,并且每个生成图像的明确起点和终点清晰可见。
首先,我们来看看 NVIDIA RTX 6000 Ada,它的最大功耗为 300W。在运行 Procyon AI 图像生成测试时,我们看到系统功率从背景负载的 235W 增加到 514W,负载下增加了 279W。从每张图像的时间来看,倒数第二张图像的 GPU 负载持续了 12.6 秒。最后一张图像创建的总功耗为 1.76Wh。
接下来,我们来看看使用 NVIDIA GeForce RTX 4090 运行的相同测试部分,它的最大功耗为 450W。在运行 AI 图像生成测试的测试中,系统功耗从最低的 233W 增加到平均 669W,负载下功耗增加了 436W。查看正在创建的倒数第二张图像,负载下的时间为 2 秒。这相当于该期间的总功耗为 7.3Wh。
最后,我们来看看新款 NVIDIA GeForce RTX 5090,它的最大功耗最高,为 600W。当这张卡运行 Procyon AI 图像生成测试时,系统功耗从背景功率 272W 增加到 811W,工作时功耗达到 539W。测得生成倒数第二张图像的时间仅为 5.1 秒,在此期间耗电量为 1.16Wh。
当我们测试这三款 NVIDIA GPU 时,虽然每个更快型号的峰值功率确实有所增加,但总能耗却有所下降。这是考虑购买新 GPU 来处理工作负载时的一个重要因素。功耗会增加,但完成特定工作负载所需的能量会减少。
结语
这篇评测对 NVIDIA GeForce RTX 5090 的整体功能进行了初步了解。并非所有软件都针对新架构进行了优化,并且针对更多以 AI 为中心的工作负载的 Linux 驱动程序要等到 XNUMX 月底该卡正式发售后才会推出。
我们发现,所有可以利用新 RTX 5090 的工作负载都获得了巨大的性能提升。某些应用程序将需要更新,因为我们看到了从不兼容到操作运行速度比预期慢等各种情况。让我们感到兴奋的是,看到这张卡能够提供多大的性能潜力。与 RTX 4090 相比,在 Procyon AI 文本和图像生成工作负载中,RTX 5090 分别提高了 16% 和 56%。在 V-Ray 测量渲染性能时,RTX 5090 的性能比其前代产品提高了 36%。我们看到的所有 GPU 加速工作负载都没有缩减。事情变得越来越紧张。当你引入 AI 助手的概念时,用户将不仅仅是玩游戏或工作;你将拥有一个并行运行的 AI 工作负载。这将需要额外的 GPU 资源以及另一项密集型任务。
这让我们谈到了价格和价值的话题。GeForce RTX 4090 的初始价格为 1,599 美元,而新款 GeForce RTX 5090 的价格则上涨了 起步价为 1,999 美元,高端产品上涨 25%。这对很多人来说值得吗?是的。对于经常将 GPU 推至峰值饱和的用户来说,更快的 GPU 可以让您做更多的事情。如果您的工作负载可以在更短的时间内运行,并且您可以提高工作效率,那么将这笔费用分摊到您的 PC 多年使用中是值得的。每个人都需要顶级型号吗?可能不会。将有多种型号,包括售价 5070 美元的 RTX 549,以及价格更低的 RTX 5060。
这款新一代显卡的另一大特点是功耗。GeForce RTX 4090 的功耗为 450W,而 RTX 5090 的功耗则高达 575W。这将给 PC 和工作站机箱设计带来新的挑战,因为它必须满足额外的冷却需求和更大的电源供应。
总体而言,新款 NVIDIA GeForce RTX 5090 给我们留下了深刻的印象,我们迫切希望看到随着应用程序支持越来越广泛,性能将提升到何种程度。就像之前的 RTX 3090 和 A6000,或 RTX 4090 和 6000 Ada 一样,GeForce RTX 5090 指明了下一代工作站型号的发展方向,我们迫不及待了。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅