经济实惠的 Blackwell 电源:我们评测了 PNY GeForce RTX 5060 Ti,它为游戏和创意任务提供 DLSS 4、GDDR7 和 AI 增益。
在实验室中,我们有机会全面评测了 NVIDIA 全新 Blackwell 50 系列显卡的几乎全部产品线,包括旗舰 GeForce RTX 5090 以及 RTX 5070现在,NVIDIA 推出了该系列的最新、更实惠的成员:GeForce RTX 5060 和 GeForce RTX 5060 Ti。
我们收到了 GeForce RTX 5060 Ti 的评测,具体来说是 PNY 显卡版本。该型号配备 16GB 新一代 GDDR7 显存。8GB 版本的 RTX 5060 Ti 也将在发布时面向预算有限的游戏玩家推出。这些显卡的目标用户是使用老一代 GPU 的玩家,尤其是那些从 GeForce RTX 3060 或更低版本升级而来的玩家,目标是将 1440p 游戏的帧率提高近一倍。
NVIDIA GeForce RTX 5060 Ti 架构
PNY GeForce RTX 5 Ti 采用最新的 PCIe 标准 Gen16 x5060 接口,配备 4,608 个 CUDA 核心,基础频率为 2.41 GHz,最高睿频可达 2.57 GHz。这使得 FP29.15 计算性能达到 32 TFLOPS,几乎是 GeForce RTX 16.2 3060 TFLOPS 的两倍。第四代光线追踪核心可提供高达 4 TFLOPS 的 RT 性能,增强了实时反射、全局照明和路径追踪支持。同时,第五代 Tensor 核心可提供 72 AI TOPS,显著提升 AI 驱动的升级、帧生成和复杂计算工作负载。
NVIDIA 声称,与 GeForce RTX 4060 Ti 相比,PNY RTX 5060 Ti 在 DLSS 2.1 和多帧生成 (Multi Frame Generation) 的支持下,3D 渲染性能提升高达 4 倍,传统光栅化性能提升 20%。对于从 RTX 3060 Ti 升级的用户来说,这一飞跃更为显著,使用 DLSS 5 时性能提升超过 4 倍。
最显著的硬件升级之一是升级至 GDDR7 显存。PNY GeForce RTX 5060 Ti 虽然保留了 16GB 显存,但它已从 GDDR6X 升级至 7 位总线上的新一代 GDDR128,显存带宽高达 448 GB/s。这意味着更快的纹理流传输、更流畅的 4K 游戏体验,以及更强大的创意工作负载下大数据集处理能力。
DLSS 4 和 AI 支持的功能
DLSS 4 支持一直是 RTX 50 系列的一大亮点。它引入了多帧生成技术,这是一种全新的 AI 技术,可为每个渲染帧创建多个帧,从而显著提升受支持游戏的 FPS。DLSS 4 增强了光线重建和超分辨率技术,提升了图像清晰度和稳定性,尤其是在快速运动或高动作场景中。
最激动人心的进展之一是 DLSS 4 与 NVIDIA 延迟降低技术 Reflex+ 的集成。两者结合后,DLSS 4 可提高帧率并降低系统延迟,使游戏体验更加流畅,这对于竞技玩家来说是一项关键优势。此外,第五代 Tensor 核心增强了 AI 处理能力,可高效处理复杂的降噪任务和推理工作负载。
自发布以来,DLSS 4 已应用于 100 多款游戏和作品,包括《Avowed》和《天国:拯救XNUMX》等新游戏,以及《荒野大镖客XNUMX》和《微软模拟飞行》等老游戏。得益于全新的 RT 核心和 AI 辅助降噪技术,利用光线追踪和路径追踪的游戏有望在不影响性能的情况下显著提升视觉保真度。
除了游戏之外,这些 AI 的进步也渗透到了创意和生产力工作负载中。Topaz Video AI、DaVinci Resolve 和 Adobe Premiere Pro 等应用程序现在都已启用 DLSS 相关技术,以实现更流畅的时间线拖拽、更快的视频升级和实时特效渲染。PNY RTX GeForce 759 Ti 拥有 5060 AI TOPS 的算力,为主流用户带来了曾经只有高端 GPU 才能享受到的加速体验。
NVIDIA GeForce RTX 5060 Ti 规格与比较
以下是 NVIDIA GeForce RTX 5060 Ti 与其前代产品(GeForce RTX 4060 Ti、GeForce RTX 3060 Ti 和 GeForce RTX 2060)的规格比较。此比较重点介绍了 GeForce RTX 5060 Ti 与许多用户可能拥有的上一代显卡的对比情况。
GPU 比较 | NVIDIA公司的GeForce RTX 5060 Ti | NVIDIA GeForce RTX 4060 Ti | NVIDIA GeForce RTX 3060 Ti | NVIDIA GeForce RTX 2060 |
GPU名称 | GB206 | AD106-350-A1 | GA104 | TU106 |
卓越 | 布莱克威尔2.0 | 艾达·洛夫莱斯 | 安培 | 图灵 |
工艺尺寸 | 5纳米 | 5纳米 | 8纳米 | 12纳米 |
晶体管 | 21,900千万 | 22,900千万 | 17,400千万 | 10,800千万 |
密度 | 121.0米 / 平方毫米 | 121.8米 / 平方毫米 | 44.4米 / 平方毫米 | 24.3米 / 平方毫米 |
模具尺寸 | 181mm² | 188mm² | 392mm² | 445mm² |
槽宽 | 双槽 | 双槽 | 双槽 | 双槽 |
尺寸 | 245毫米×120毫米×40毫米 | 240毫米x 111毫米x 40毫米 | 242 x 112 | 229毫米x 113毫米x 35毫米 |
TDP | 180W 瓦 | 160W 瓦 | 200W 瓦 | 184W 瓦 |
视频连接 | 1x HDMI 2.1b 3个DisplayPort 2.1b |
1个HDMI 2.1 3 个显示端口 1.4a |
1个HDMI 2.1 3 个显示端口 1.4a |
1 个 HDMI 2.1b、3 个 DisplayPort 2.1b |
电源连接器 | 1x 16针 | 1x 16针 | 1x 12针 | 1x 16针 |
总线接口 | PCIe 5.0 x16 | PCIe 4.0 x16 | PCIe 4.0 x16 | PCIe 5.0 x16 |
基地时钟 | 2407 MHz | 2310 MHz | 1410 MHz | 1470 MHz |
提升时钟 | 2572 MHz | 2535 MHz | 1665 MHz | 1650 MHz |
记忆时钟 | 1750 MHz 28 Gbps 有效 |
2250 MHz 18 Gbps 有效 |
1750 MHz 14 Gbps 有效 |
1750 MHz 14 Gbps 有效 |
内存大小 | 8或16 GB | 16或8 GB | 8 GB | 12 GB |
内存类型 | GDDR7 | GDDR6 | GDDR6 | GDDR6 |
Magistrala pamięci | 128 bit | 128 bit | 256 bit | 192 bit |
内存带宽 | 448.0 GB /秒 | 288.0 GB /秒 | 448.0 GB /秒 | 336.0 GB /秒 |
CUDA核心 | 4608 | 4352 | 4864 | 2176 |
TMU | 144 | 136 | 152 | 136 |
个ROPs | 48 | 48 | 80 | 48 |
SM 计数 | 36 | 34 | 38 | 34 |
张量核心 | 144 | 136 | 152 | 272 |
RT核心 | 36 | 34 | 38 | 34 |
L1缓存 | 128 KB(每个 SM) | 128 KB(每个 SM) | 128 KB(每个 SM) | 128 KB(每个 SM) |
L2缓存 | 36 MB | 32 MB | 4 MB | 64 MB |
像素率 | 158.4 GPixel / s | 121.7 GPixel / s | 133.2 GPixel / s | 79.20 GPixel / s |
纹理速率 | 455.4 格塞尔/秒 | 344.8 格塞尔/秒 | 253.1 格塞尔/秒 | 224.4 格塞尔/秒 |
FP16(一半) | 29.15 万亿次浮点运算 (1:1) | 22.06 TFLOPS (1:1) | 16.20 TFLOPS (1:1) | 14.36 TFLOPS (2:1) |
FP32(浮点数) | 29.15 TFLOPS | 22.06 TFLOPS | 16.20 TFLOPS | 7.181 TFLOPS |
FP64 (双精度) | 455.4 GFLOPS(1:64) | 344.8 GFLOPS (1:64) | 253.1 GFLOPS (1:64) | 224.4 GFLOPS (1:32) |
发行价格(美元) | $ 379 / 429 $ | $ 499 / 399 $ | $399 | 无 |
建造与设计 – PNY 的GeForce 英伟达 RTX 5060 Ti
PNY GeForce RTX 5060 Ti 采用双插槽设计,物理尺寸与 GeForce RTX 5070创始人版。虽然冷却器横跨整个卡的长度,但实际的 PCB 仅占用该空间的一半,其余空间专用于相当大的散热器和双风扇冷却系统,以管理 180W TDP。
这款更短的PCB使其尤其适合紧凑型水冷系统,为改装爱好者提供更多空间安装前置散热器、水箱或定制环形管路。即使在标准风冷配置下,该设计也能为更紧凑的中塔机箱提供灵活性。PNY的这款散热器在高负载下运行安静,并配备全长金属背板和额外的通风口,在增加刚性的同时又不增加不必要的体积。虽然它的设计可能并不抢眼,但它确实高效地完成了工作。
该显卡通过单个 8 针 PCIe 接口供电,方便用户升级。这种标准接口的设计体现了显卡高效的电源设计,尤其适合使用老款或低功率电源的用户。对于使用中端显卡的用户来说,升级显卡非常轻松,因为更换电源可能会成为限制因素,尤其是在紧凑型或预装系统中。该显卡配备金属双插槽 PCIe 背板,经久耐用,并配备 1 个 HDMI 2.1b 和 3 个 DisplayPort 2.1b 输出,支持各种现代显示器。
StorageReview AMD Threadripper 测试平台
我们用于 RTX 5060 Ti 测试的测试平台包括:
-
- 主板: 华硕 Pro WS TRX50-SAGE WIFI
- CPU: AMD Ryzen Threadripper 7980X 64 核
- RAM: 64GB DDR5 4800MT/s
- 存储: 2TB 三星 980 Pro
- OS: Windows 11 Pro for Workstations
- 司机: NVIDIA 571.86 GameReady 驱动程序
AMD Ryzen Threadripper 7980X 是我们测试系统的核心,拥有 64 个核心和广泛的多线程功能。这确保了 CPU 限制不会干扰以 GPU 为中心的基准测试,特别是在 AI 处理、光线追踪和高分辨率渲染方面,这些方面的工作负载大量转移到 GPU。
我们将 7980X 与华硕 Pro WS TRX50-SAGE WIFI 主板搭配使用,以提供充足的 PCIe 带宽,确保 GPU 能够充分发挥其潜力,而不会出现瓶颈。我们的系统还包含 128GB DDR5 内存,速度为 4800MT/s,为处理大型数据集时的流畅运行提供了充足的空间。虽然三星 980 Pro 是一款略显老旧的第四代 SSD,但它仍然提供快速的读写速度,最大限度地缩短加载时间,并防止 AI 模型推理或纹理流等数据密集型任务受到存储性能的阻碍。
在之前的基准测试中,我们并没有重点关注 NVIDIA 的许多低端 xx60 系列显卡,但随着 PNY GeForce RTX 5060 Ti 的到来,情况发生了变化。为了清楚地了解这款新 GPU 的定位,我们将其与之前测试过的一系列更高级别的显卡进行了比较,包括 GeForce RTX 5070 和 GeForce RTX 4070。这为我们提供了上一代及更高级别的稳定性能和效率对比。
- NVIDIA RTX 5070 (12GB GDDR7)
- NVIDIA RTX 4070(12GB GDDR6X)
基准测试
我们首先要进行的测试是 Procyon AI 文本生成基准。该基准测试通过提供紧凑一致的评估方法简化了 AI LLM 性能测试。它允许在多个 LLM 模型上进行重复测试,同时最大限度地降低大模型尺寸和可变因素的复杂性。该基准测试由 AI 硬件领导者共同开发,优化了本地 AI 加速器的使用,以实现更可靠、更高效的性能评估。下面测量的结果是使用 TensorRT 测试的。
在 Procyon AI 文本生成测试中,PNY GeForce RTX 5060 Ti 尽管是该组中规格最适中的显卡,但仍保持着自己的优势,它拥有 4,608 个 CUDA 核心和 128 位内存总线,而 RTX 5070 拥有 6,144 个核心和 192 位总线,RTX 4070 拥有 5,888 个核心,同样为 192 位宽度。 5060 Ti 的 Phi 和 Mistral 得分分别为 2,870 和 2,807,输出令牌速率分别为 120.7 个令牌/秒和 91.0 个令牌/秒,明显落后于 5070 的 150.4 个令牌/秒和 120.5 个令牌/秒,以及 4070 的 141.6 个令牌/秒和 99.6 个令牌/秒。这种趋势在 Llama3 和 Llama2 中延续,5060 Ti 在吞吐量和持续时间方面均落后:Llama74.7 的吞吐量为 39.4 个令牌/秒,持续时间为 3 秒;Llama41.3 的吞吐量为 71.3 个令牌/秒,持续时间为 2 秒。虽然在较重的型号下差距会更大,但 5060 Ti 在同类产品中仍保持良好状态。对于那些寻求基本本地 AI 加速且无需支付更高价格的用户来说,它提供了极具吸引力的价值。
UL Procyon:AI 文本生成 | PNY Nvidia GeForce RTX 5060 Ti | NVIDIA GeForce RTX 5070 | NVIDIA GeForce RTX 4070 |
菲总分 | 2,870 | 3,453 | 3,191 |
Phi 输出时间到第一个标记 | 0.375小号 | 0.323小号 | 0.356小号 |
每秒输出 Phi 令牌数 | 120.733 个代币/秒 | 150.435 个代币/秒 | 141.575 个代币/秒 |
Phi 总时长 | 25.216小号 | 20.302小号 | 21.743小号 |
米斯特拉尔总成绩 | 2,807 | 3,562 | 2,987 |
Mistral 输出第一个令牌的时间 | 0.526小号 | 0.433小号 | 0.508小号 |
每秒 Mistral 输出代币数 | 91.057 个代币/秒 | 120.507 个代币/秒 | 99.590 个代币/秒 |
米斯特拉尔总持续时间 | 33.377小号 | 25.496小号 | 30.651小号 |
Llama3 总体评分 | 2,599 | 3,125 | 2,810 |
Llama3 输出第一个标记的时间 | 0.449小号 | 0.379小号 | 0.423小号 |
Llama3 每秒输出令牌数 | 74.709 个代币/秒 | 100.388 个代币/秒 | 82.130 个代币/秒 |
Llama3 总时长 | 39.489小号 | 29.720小号 | 36.147小号 |
Llama2 总体评分 | 2,576 | 3,125 | 2,658 |
Llama2 输出第一个标记的时间 | 0.844小号 | 0.785小号 | 0.947小号 |
Llama2 每秒输出令牌数 | 41.386 个代币/秒 | 56.647 个代币/秒 | 49.487 个代币/秒 |
Llama2 总时长 | 71.302小号 | 53.234小号 | 61.300小号 |
UL Procyon: 人工智能图像生成
- Procyon AI 图像生成基准 持续准确地测量各种硬件(从低功耗 NPU 到高端 GPU)的 AI 推理性能。它包括三项测试:针对高端 GPU 的稳定扩散 XL (FP16)、针对中等功率 GPU 的稳定扩散 1.5 (FP16) 和针对低功耗设备的稳定扩散 1.5 (INT8)。基准测试使用每个系统的最佳推理引擎,确保结果公平且具有可比性。
在 Procyon AI 图像生成基准测试中,PNY GeForce RTX 5060 Ti 再次展现出同类产品中不俗的成绩。稳定扩散 1.5 FP16 测试得分为 2,110,明显落后于 GeForce RTX 5070 的 2,937 和 4070 的 2,400。其平均图像生成时间为 2.97 秒,落后于 5070 的 2.13 秒和 4070 的 2.60 秒。同一型号的 INT8 版本也同样如此,得分为 27,705,而 36,320 的得分为 5070,31,048 的得分为 4070。在这项低精度测试中,它每张图像的生成时间为 1.13 秒,同样低于同类产品。在稳定扩散 XL (FP16) 中,差距进一步拉大 - 1,837 Ti 为 5060,而 2,473 和 1,940 分别为 5070 和 4070,每张图像生成速度为 20.4 秒。
UL Procyon:AI 图像生成(总分:越高越好) | PNY NVIDIA GeForce RTX 5060 Ti | NVIDIA GeForce RTX 5070 | NVIDIA GeForce RTX 4070 |
稳定扩散 1.5 (FP16) — 总体得分 | 2,110 | 2,937 | 2,400 |
稳定扩散 1.5 (FP16) — 总时间 | 47.590小号 | 34.038小号 | 41.661小号 |
稳定扩散 1.5 (FP16) — 图像生成速度 | 2.974 秒/图像 | 2.127 秒/图像 | 2.604 秒/图像 |
稳定扩散 1.5 (INT8) — 总体得分 | 27,705 | 36,320 | 31,048 |
稳定扩散 1.5 (INT8) — 总时间 | 9.024小号 | 6.883小号 | 8.052小号 |
稳定扩散 1.5 (INT8) — 图像生成速度 | 1.128 秒/图像 | 0.860 秒/图像 | 1.006 秒/图像 |
稳定扩散 XL (FP16) — 总体得分 | 1,837 | 2,473 | 1,940 |
稳定扩散 XL (FP16) — 总时间 | 326.550小号 | 242.606s | 309.269s |
稳定扩散 XL (FP16) — 图像生成速度 | 20.409 秒/图像 | 15.163 秒/图像 | 19.329 秒/图像 |
乐士马克
Luxmark 是一个 GPU 基准测试,它使用开源光线追踪渲染器 LuxRender 来评估系统在处理高度详细的 3D 场景方面的性能。该基准测试适用于评估服务器和工作站的图形渲染能力,特别是对于视觉效果和建筑可视化应用程序,其中准确的光模拟至关重要。
在 LuxMark 基准测试中,PNY GeForce RTX 5060 Ti 的得分虽然不高,但考虑到其较为适中的配置,还是相当不错的。它在“美食”场景中得分 6,590,在要求更高的“Hall”测试中得分 15,348。它落后于 GeForce RTX 5070 和 4070,后者得益于更高的核心数量和更大的内存总线。
Luxmark(越高越好) | PNY NVIDIA GeForce RTX 5060 Ti | NVIDIA GeForce RTX 5070 | NVIDIA GeForce RTX 4070 |
食物评分 | 6,590 | 9,061 | 7,535 |
霍尔斯 | 15,348 | 22,062 | 20,003 |
Geekbench 6
Geekbench 6 是衡量整体系统性能的跨平台基准测试。Geekbench 浏览器可让您将任何系统与其进行比较。
在 Geekbench 6 的 GPU OpenCL 测试中,PNY GeForce RTX 5060 Ti 得分为 150,743,落后于 RTX 5070 和 4070,后两者得分分别为 188,892 和 174,725。虽然 5060 Ti 并非领跑者,但它仍然保持着自己的优势,为各种应用程序中的日常 GPU 加速任务提供了稳定的计算性能。
Geekbench(越高越好) | PNY NVIDIA GeForce RTX 5060 Ti | NVIDIA GeForce RTX 5070 | NVIDIA GeForce RTX 4070 |
GPU OpenCL 分数 | 150,743 | 188,892 | 174,725 |
的V-Ray
- 的V-Ray 基准测试使用先进的 V-Ray 6 引擎测量 CPU、NVIDIA GPU 或两者的渲染性能。它使用快速测试和简单的评分系统让用户评估和比较其系统的渲染能力。对于寻求高效性能见解的专业人士来说,它是一款必不可少的工具。
在使用 V-Ray 6 引擎评估 GPU 渲染性能的 V-Ray 基准测试中,RTX 5060 Ti 的得分为 4,457 分,低于 4070 的 4,469 分,甚至明显落后于 5070 的 6,553 分。尽管 5060 Ti 的定位较低,但在这种工作负载下仍能与 4070 保持同步,为预算紧张的创意专业人士提供不错的渲染能力。
V-Ray(越高越好) | PNY NVIDIA GeForce RTX 5060 Ti | NVIDIA GeForce RTX 5070 | NVIDIA GeForce RTX 4070 |
虚拟路径 | 4,457 | 6,553 | 4,469 |
3D马克
3DMark Port Royal、Speedway 和 Steel Nomad 是 GPU 基准测试,用于测试不同场景下的性能。Port Royal 专注于光线追踪,Speed Way 评估赛车模拟的性能,而 Steel Nomad 则以高强度、逼真的图形挑战 GPU。它们评估 GPU 在渲染、光照和动态场景方面的能力。
在 3DMark 基准测试中,PNY GeForce RTX 5060 Ti 在所有测试中均表现出色。在 Port Royal 测试中,它的得分为 10,432,落后于 5070(14,026),但高于 4070(11,074)。在 Speed Way 测试中,5060 Ti 得分为 4,184,5070 以 5,869 领先,4070 得分为 4,477。在 Steel Nomad 测试中,5060 Ti 得分为 3,611,再次落后于 5070(5,019),但略高于 4070(3,748)。5060 Ti 在这些高强度 GPU 测试中保持领先,对于不需要绝对顶级性能但仍追求高性价比的游戏玩家和创作者来说,它是一个不错的选择。
3DMark 测试(分数越高越好) | PNY NVIDIA GeForce RTX 5060 Ti | NVIDIA GeForce RTX 5070 | NVIDIA GeForce RTX 4070 |
皇家港口 | 10,432 | 14,026 | 11,074 |
速度方式 | 4,184 | 5,869 | 4,477 |
钢铁游牧者 | 3,611 | 5,019 | 3,748 |
NVIDIA GeForce RTX 5070 Founders 电源效率结果
我们一直使用 Procyon AI Image 测试作为基准来测量功耗。我们利用我们的 Quarch 电源分析仪 在我们的测试平台上测量 NVIDIA GPU 的功耗。运行 Stable Diffusion XL FP16 测试时,我们观察倒数第二幅图像生成的时间间隔。我们测量了该时间间隔从开始到结束的时间、峰值功耗、平均高功耗以及测试完成后的空闲功耗。
我们的测试显示,在持续工作负载下,平均功耗为 385W,峰值功耗达到 419W,空闲功耗为 151W。PNY NVIDIA GeForce RTX 5060 Ti 的标称功率为 180W。该卡完成了我们 20.2 秒的测试周期,在测试期间总功耗为 2.13 Wh。
稳定扩散 XL FP16 图像功率使用情况(越低越好) | PNY NVIDIA GeForce RTX 5060钛 | NVIDIA GeForce RTX 5070 | 华硕 Prime NVIDIA GeForce RTX 5070 Ti | NVIDIA GeForce RTX 5080 | NVIDIA GeForce RTX 5090 |
耗电量 | 2.13瓦 | 2.46Wh | 1.66Wh | 1.39Wh | 1.16Wh |
测试时长 | 20.2小号 | 19.2小号 | 11.1小号 | 8.7小号 | 5.1小号 |
结语
GeForce RTX 5060 Ti 系列以 379-429 美元的价格进入市场,为用户提供了体验 NVIDIA Blackwell 2.0 架构的途径,而无需支付旗舰机型的下一代价格。对于寻求更大内存的用户,像 PNY RTX 5060 Ti 这样配备 16GB GDDR7 显存的显卡可以解决之前中端 GPU 的一个关键限制,为多任务处理、AI 增强工具和更大型的游戏资源释放更多空间。虽然不像之前评测过的显卡那样是 AI 的主力, GeForce RTX 5090 or GeForce RTX 5080,它仍然支持 DLSS 4 和改进的光线追踪等下一代功能,为更主流的受众带来高级功能。
在游戏性能方面,GeForce RTX 5060 Ti 的表现令人印象深刻,在支持的工作负载下,性能比 GeForce RTX 5 Ti 提升高达 3060 倍。它在 1440p 分辨率下表现出色,能够以高设置和流畅的帧率运行现代游戏。对于使用 GeForce RTX 3060 Ti 或 GeForce RTX 2060 Super 等老款显卡的用户来说,它是理想的升级选择,尤其适合那些希望充分利用 Blackwell 最新功能而又不想彻底改造整个系统的用户。
GeForce RTX 5060 Ti 系列采用紧凑的双插槽设计,功耗低,价格亲民,是一款兼具实用性和前瞻性的升级产品。它为更广泛的用户带来了新一代 NVIDIA Blackwell 功能,且价格实惠,而高端显卡通常价格昂贵。
亚马逊上的 RTX 5060 Ti (附属链接)
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅