NVIDIA GeForce RTX 5070 Ti 版显卡将于 20 月 749 日推出,建议零售价为 XNUMX 美元。
NVIDIA GeForce RTX 5070 Ti 版显卡将于 20 月 749 日上市,建议零售价为 5070 美元。由于 Ti 型号没有 Founders Edition 版本,因此 NVIDIA 为我们提供了华硕 Prime GeForce RTX 5070 Ti 进行测试。它的定位略高于入门级 RTX XNUMX,性能接近 RTX 5080。这使其成为希望升级的游戏玩家或不想超支而进入入门级 AI 工作负载的用户的一个有吸引力的选择。
配备与 RTX 5090 和 RTX 5080 一样,华硕 Prime RTX 5070 Ti 以实惠的价格为游戏玩家带来了 NVIDIA 的最新创新。它采用具有多帧生成和光线重建的 DLSS 4,可实现流畅的性能和令人惊叹的视觉效果,并通过 NVIDIA Reflex 2 和 Frame Warp 确保游戏响应速度,为竞技游戏提供低延迟。具有神经渲染的全光线追踪可提供逼真的图形,提供更身临其境的游戏体验。
ASUS Prime RTX 5070 Ti GPU 规格与比较
ASUS PRIME RTX 5070 Ti 配备 8,960 个 CUDA 核心,与 RTX 4070 Ti 的 7,680 个核心相比有显著提升,但低于 RTX 5080 的 10,752 个核心。除了核心数量的增加外,它还拥有 16GB GDDR7 内存,与 RTX 4070 Ti 的 12GB GDDR6 相比,这是一个急需的改进。随着现代游戏越来越需要更多的 VRAM 来处理高分辨率纹理、复杂几何图形和光线追踪效果,升级到 16GB GDDR7 内存至关重要。
此外,带宽增加对 AI 增强型游戏功能(如 DLSS 4 和神经渲染)尤其有利,这些功能需要快速访问存储在 VRAM 中的 AI 模型。使用 NVIDIA AI 驱动的 NPC 的游戏也受益于扩展的内存容量,因为这些功能需要额外的 VRAM 来存储其神经网络。凭借增强的处理能力和更快的内存,RTX 5070 Ti 可为游戏和 AI 加速应用程序提供出色的性能,而无需旗舰机型的功率和成本要求。
以下是我们最近评测过的卡的完整规格。
GPU 比较 | NVIDIA RTX 4090 | NVIDIA RTX 5070 | 华硕 Prime NVIDIA RTX 5070 Ti | NVIDIA RTX 5080 | NVIDIA RTX 5090 |
GPU名称 | AD102 | GB205 | GB203 | GB203 | GB202 |
卓越 | 阿达洛夫莱斯 | 布莱克威尔2.0 | 布莱克威尔2.0 | 布莱克威尔2.0 | 布莱克威尔2.0 |
工艺尺寸 | 5纳米 | 5纳米 | 5纳米 | 5纳米 | 5纳米 |
晶体管 | 76,300千万 | 31,000千万 | 45,600千万 | 45,600千万 | 92,200千万 |
密度 | 125.3米 / 平方毫米 | 117.9米 / 平方毫米 | 120.6米 / 平方毫米 | 120.6米 / 平方毫米 | 123.9米 / 平方毫米 |
模具尺寸 | 609mm² | 263mm² | 378mm² | 378mm² | 744mm² |
槽宽 | 三槽 | 双槽 | 2.5插槽 | 双槽 | 双槽 |
尺寸 | 304毫米x 137毫米x 61毫米 | 242 mm x 112 mm | 304 x 126 x 50毫米 | 304毫米x 137毫米x 48毫米 | 304毫米x 137毫米x 48毫米 |
TDP | 450W 瓦 | 250W 瓦 | 300W 瓦 | 360W 瓦 | 575W 瓦 |
视频连接 | 1 个 HDMI 2.1、3 个 DisplayPort 1.4a | 1 个 HDMI 2.1b、3 个 DisplayPort 2.1a | 1 个 HDMI 2.1b、3 个 DisplayPort 2.1b | 1 个 HDMI 2.1b、3 个 DisplayPort 2.1b | 1 个 HDMI 2.1b、3 个 DisplayPort 2.1b |
电源连接器 | 1x 16针 | 1x 16针 | 1x 16针 | 1x 16针 | 1x 16针 |
总线接口 | PCIe 4.0 x16 | PCIe 5.0 x16 | PCIe 5.0 x16 | PCIe 5.0 x16 | PCIe 5.0 x16 |
基地时钟 | 2235 MHz | 2165 MHz | 2300 MHz | 2295 MHz | 2017 MHz |
提升时钟 | 2520 MHz | 2510 MHz | 超频模式:2482MHz 默认模式:2452MHz(加速时钟) |
2617 MHz | 2407 MHz |
记忆时钟 | 1313 MHz(有效21 Gbps) | 2209 MHz(有效28 Gbps) | 1750 MHz(有效28 Gbps) | 2366 MHz(有效30 Gbps) | 2209 MHz(有效28 Gbps) |
内存大小 | 24 GB | 12 GB | 16 GB | 16 GB | 32 GB |
内存类型 | GDDR6X | GDDR7 | GDDR7 | GDDR7 | GDDR7 |
Magistrala pamięci | 384 bit | 192 bit | 256 bit | 256 bit | 512 bit |
内存带宽 | 1.01 TB / s | 672.2 GB /秒 | 896.0 GB /秒 | 960.0 GB /秒 | 1.79 TB / s |
CUDA核心 | 16,384 | 6,144 | 8960 | 10,752 | 21,760 |
TMU | 512 | 192 | 280 | 336 | 680 |
个ROPs | 176 | 64 | 128 | 128 | 192 |
SM 计数 | 128 | 48 | 70 | 84 | 170 |
张量核心 | 512 | 192 | 280 | 336 | 680 |
RT核心 | 128 | 48 | 70 | 84 | 170 |
L1缓存 | 128 KB(每个 SM) | 128 KB(每个 SM) | 128 KB(每个 SM) | 128 KB(每个 SM) | 128 KB(每个 SM) |
L2缓存 | 72 MB | 40 MB | 64 MB | 64 MB | 88 MB |
像素率 | 443.5 GPixel / s | 160.6 GPixel / s | 313.9 GP 像素/秒 | 335.0 GPixel / s | 462.1 GPixel / s |
纹理速率 | 1,290 格塞尔/秒 | 481.9 格塞尔/秒 | 686.6 格塞尔/秒 | 879.3 格塞尔/秒 | 1,637 格塞尔/秒 |
FP16(一半) | 82.58 万亿次浮点运算 (1:1) | 30.84 万亿次浮点运算 (1:1) | 43.94 万亿次浮点运算 (1:1) | 56.28 万亿次浮点运算 (1:1) | 104.8 万亿次浮点运算 (1:1) |
FP32(浮点数) | 82.58 TFLOPS | 30.84 TFLOPS | 43.94 TFLOPS | 56.28 TFLOPS | 104.8 TFLOPS |
FP64 (双精度) | 1,290 GFLOPS(1:64) | 481.9 GFLOPS(1:64) | 686.6 GFLOPS(1:64) | 879.3 GFLOPS(1:64) | 1.637 万亿次浮点运算 (1:64) |
发行价格(美元) | $1,599 | $549 | $749 | $999 | $1,999 |
如需深入了解 Blackwell 架构和 50 系列 GPU 的创新,请参阅我们之前对 RTX 5080 和 RTX 5090 系列卡。
建筑与设计
该卡尺寸为 12 x 5 x 2 英寸(304 x 126 x 50 毫米),长度与 Founders Editions RTX 5080 和 RTX 5090 相同,但采用更厚的 2.5 槽宽度设计。
在散热方面,华硕采用了三轴流风扇设计,并配备双滚珠轴承,以提高耐用性并保持稳定的气流。此设置配有大型散热器,热管遍布整个卡,并配有通风背板和侧面,以最大限度地散热。此外,当 GPU 温度低于 50°C 时,所有三个风扇都会停止运转,从而可以在要求不高的任务或轻度游戏期间保持静音运行。一旦温度超过 55°C,风扇就会自动重新启动。
至于电源,与许多新款显卡一样,该设备包含一条 12 针转 3x 8 针电源线,适合显卡 300W 的额定功耗。上图显示了该设备的铝制背板,它可以保护显卡并有助于后部组件的整体冷却。背板还有助于提高显卡的刚性。
在显卡的背面,我们可以看到双插槽 304 不锈钢背板,但需要注意的是,由于散热器的厚度,这张卡占用了 2.5 个插槽。对于显示器连接,该卡提供 1x HDMI 2.1b 和 3x DisplayPort 2.1b,确保与各种现代显示器兼容,以用于高分辨率游戏或专业工作。
该显卡的其他显著特点包括可切换的 BIOS,通过显卡上的开关控制,可在“P”(性能)模式和“Q”(静音)模式之间切换。该设备还采用了相变导热垫,旨在提高冷却性能和与芯片接触的导热材料的使用寿命。最后,华硕提供了 GPU Tweak III 软件,用于微调显卡的性能以满足特定要求。
基准测试:华硕 Prime RTX 5070 Ti
为了优化华硕 Prime GeForce RTX 5070 Ti,我们使用了高性能 AMD Threadripper 平台。该系统配备 64 核 CPU 和定制水冷回路,可确保 GPU 满负荷运行而不会出现 CPU 瓶颈。使用相同的配置来测试 Founders RTX 5080、RTX 5090 和 RTX 4090,确保所有显卡之间的比较公平一致。需要注意的一个细微之处是,我们的测试是在这张卡的“P”模式下进行的。
以下是完整的系统配置。
StorageReview AMD Threadripper 测试平台
- 主板: 华硕 Pro WS TRX50-SAGE WIFI
- CPU: AMD Ryzen Threadripper 7980X 64 核
- RAM: 32GB DDR5 4800MT/s
- 存储: 2TB 三星 980 Pro
- OS: Windows 11 Pro for Workstations
- 司机: NVIDIA 571.86 GameReady 驱动程序
UL Procyon:AI 文本生成
- Procyon AI 文本生成基准 通过提供紧凑一致的评估方法,简化了 AI LLM 性能测试。它允许在多个 LLM 模型中进行重复测试,同时最大限度地降低大模型大小和可变因素的复杂性。它与 AI 硬件领导者共同开发,优化了本地 AI 加速器的使用,以实现更可靠、更高效的性能评估。下面测量的结果是使用 TensorRT 测试的。
UL Procyon:AI 文本生成 | 华硕 Prime NVIDIA RTX 5070 Ti | NVIDIA RTX 5080 | NVIDIA RTX 5090 | NVIDIA RTX 4090 |
菲总分 | 4,179 | 4,400 | 5,749 | 4,958 |
Phi 输出时间到第一个标记 | 0.290小号 | 0.277小号 | 0.244小号 | 0.255小号 |
每秒输出 Phi 令牌数 | 192.487 个代币/秒 | 209.459 个代币/秒 | 314.435 个代币/秒 | 244.343 个代币/秒 |
Phi 总时长 | 15.771小号 | 14.908小号 | 10.280小号 | 12.872小号 |
米斯特拉尔总成绩 | 4,412 | 4,635小号 | 6,267 | 5,094 |
Mistral 输出第一个令牌的时间 | 0.374小号 | 0.347小号 | 0.297小号 | 0.322小号 |
每秒 Mistral 输出代币数 | 160.167 个代币/秒 | 163.598 个代币/秒 | 255.945 个代币/秒 | 183.266 个代币/秒 |
米斯特拉尔总持续时间 | 19.480小号 | 18.933小号 | 12.593小号 | 17.010小号 |
Llama3 总体评分 | 4,187 | 4,424 | 6,104 | 4,849 |
Llama3 输出第一个标记的时间 | 0.306小号 | 0.283小号 | 0.234小号 | 0.259小号 |
Llama3 每秒输出令牌数 | 131.853 个代币/秒 | 136.177 个代币/秒 | 214.285 个代币/秒 | 150.039 个代币/秒 |
Llama3 总时长 | 22.786小号 | 21.985小号 | 14.304小号 | 19.991小号 |
Llama2 总体评分 | 4,284 | 4,790 | 6,591 | 5,013 |
Llama2 输出第一个标记的时间 | 0.560小号 | 0.493小号 | 0.419小号 | 0.500小号 |
Llama2 每秒输出令牌数 | 75.905 个代币/秒 | 83.653 个代币/秒 | 134.502 个代币/秒 | 92.853 个代币/秒 |
Llama2 总时长 | 39.545s | 35.703s | 23.018小号 | 32.448小号 |
在文本生成测试中,RTX 5070 Ti 是该系列中最实惠的显卡,其 AI 文本生成性能与 RTX 5080 惊人地接近。Phi 基准测试得分为 4,179 vs. 4,400,每秒令牌数(192.487 vs. 209.46)和总持续时间(15.77 秒 vs. 14.91 秒)略有不同。Mistral 和 Llama3 基准测试显示出类似的趋势,令牌吞吐量差异可以忽略不计。Llama2 的差距更大,5070 Ti 得分为 4,284 vs. 4,790,每秒处理令牌数为 75.91 vs. 83.65。不过,在所有测试中,5070 Ti 的性能仍然接近 5080,使其成为预算有限且希望进入 AI 文本生成工作负载的用户的绝佳选择。
UL Procyon: 人工智能图像生成
- Procyon AI 图像生成基准 持续准确地测量各种硬件(从低功耗 NPU 到高端 GPU)的 AI 推理性能。它包括三项测试:针对高端 GPU 的稳定扩散 XL (FP16)、针对中等功率 GPU 的稳定扩散 1.5 (FP16) 和针对低功耗设备的稳定扩散 1.5 (INT8)。基准测试使用每个系统的最佳推理引擎,确保结果公平且具有可比性。
UL Procyon:AI 图像生成(总分:越高越好) | 华硕 Prime NVIDIA RTX 5070 Ti | NVIDIA RTX 5080 | NVIDIA RTX 5090 | NVIDIA RTX 4090 |
稳定扩散 1.5 (FP16) — 总体得分 | 3,755 | 4,650 | 8,193 | 5,260 |
稳定扩散 1.5 (FP16) — 总时间 | 26.625小号 | 21.503小号 | 12.204小号 | 19.011小号 |
稳定扩散 1.5 (FP16) — 图像生成速度 | 1.664 秒/图像 | 1.344 秒/图像 | 0.763 秒/图像 | 1.188 秒/图像 |
稳定扩散 1.5 (INT8) — 总体得分 | 46,744 | 55,683 | 79,272 | 62,160 |
稳定扩散 1.5 (INT8) — 总时间 | 5.348小号 | 4.490小号 | 3.154小号 | 4.022小号 |
稳定扩散 1.5 (INT8) — 图像生成速度 | 0.669 秒/图像 | 0.561 秒/图像 | 0.394 秒/图像 | 0.503 秒/图像 |
稳定扩散 XL (FP16) — 总体得分 | 3,352 | 4,257 | 7,179 | 5,025 |
稳定扩散 XL (FP16) — 总时间 | 178.946小号 | 140.928s | 83.573小号 | 119.379小号 |
稳定扩散 XL (FP16) — 图像生成速度 | 11.184 秒/图像 | 8.808 秒/图像 | 5.223 秒/图像 | 7.461 秒/图像 |
在 AI 图像生成方面,RTX 5070 Ti 表现不俗,但落后于 RTX 5080,这是意料之中的。稳定扩散 1.5 (FP16) 完成一张图像需要 1.664 秒,而 5080 需要 1.344 秒,总得分分别为 3,755 和 4,650。INT8 变体略微缩小了差距,但 5070 Ti 仍然落后,生成每张图像需要 0.669 秒,而 5080 需要 0.561 秒。最显著的差异出现在稳定扩散 XL (FP16) 中,其中 5070 Ti 每张图像需要 11.184 秒,而 5080 的速度明显更快,为 8.808 秒。尽管排名较低,但对于想要进入 AI 驱动图像生成的预算有限的用户来说,5070 Ti 仍然是一个实用的选择。
乐士马克
Luxmark 是一个 GPU 基准测试,它使用开源光线追踪渲染器 LuxRender 来评估系统在处理高度详细的 3D 场景方面的性能。该基准测试适用于评估服务器和工作站的图形渲染能力,特别是对于视觉效果和建筑可视化应用程序,其中准确的光模拟至关重要。
Luxmark(越高越好) | 华硕 Prime NVIDIA RTX 5070 Ti | NVIDIA RTX 5080 | NVIDIA RTX 5090 | NVIDIA RTX 4090 |
食物评分 | 12,073 | 13,637 | 23,141 | 17,171 |
霍尔斯 | 28,635 | 30,815 | 51,725 | 38,887 |
在 LuxMark 测试中,RTX 5070 Ti 表现稳健,与 5080 差距不大。在“食物”场景中,它的得分为 12,073,略低于 5080 的 13,637;在“大厅”场景中,它的得分为 28,635 vs. 30,815 的 5070。差距相对较小,表明 XNUMX Ti 仍然以更实惠的价格提供强大的渲染能力。
Geekbench 6
Geekbench 6 是衡量整体系统性能的跨平台基准测试。Geekbench 浏览器可让您将任何系统与其进行比较。
Geekbench(越高越好) | 华硕 Prime NVIDIA RTX 5070 Ti | NVIDIA RTX 5080 | NVIDIA RTX 5090 | NVIDIA RTX 4090 |
GPU OpenCL 分数 | 246,875 | 265,397 | 374,807 | 333,384 |
在 Geekbench 中,RTX 5070 Ti 的 GPU OpenCL 得分为 246,875,提供了稳定的游戏、视频编辑和内容创建性能。这是一款强大的中端选择,仍然显示出潜力,提供良好的性能,而价格却不像 5080 或 5090 等高端型号那么高。它非常适合在高设置下进行 1440p 或 4K 游戏。
的V-Ray
- 的V-Ray 基准测试使用先进的 V-Ray 6 引擎测量 CPU、NVIDIA GPU 或两者的渲染性能。它使用快速测试和简单的评分系统让用户评估和比较其系统的渲染能力。对于寻求高效性能见解的专业人士来说,它是一款必不可少的工具。
V-Ray(越高越好) | 华硕 Prime NVIDIA RTX 5070 Ti | NVIDIA RTX 5080 | NVIDIA RTX 5090 | NVIDIA RTX 4090 |
虚拟路径 | 8,018 | 9,311 | 14,764 | 10,847 |
最后,在 V-Ray 中,RTX 5070 Ti 的 V-Ray 得分为 0,018 vpaths,渲染性能不错,略低于 5080 的 9,311 vpaths、5090 的 14,764 vpaths 和 4090 的 10,847 vpaths。虽然它在渲染任务方面表现出潜力,但高端型号在更复杂的工作负载下可提供更快的性能。
功耗基准测试
功耗是任何高端或低端计算平台的重要组成部分。每一代新 GPU 在负载下都会消耗更多电量,这意味着需要更大的电源和充足的冷却气流。然而,功耗与性能还有另一个方面:更快的 GPU 可能会达到更高的峰值,但每个工作负载的持续时间会减少。
在 CES 2025 上,NVIDIA 重点介绍了 Blackwell 架构的节能效果,我们非常期待看到它在 AI 驱动的工作负载中发挥作用。 Quarch 电源分析仪 在我们的测试实验室中,我们测量了运行 Procyon AI 图像生成器 Stable Diffusion XL FP16 测试。此工作负载将每个 GPU 推至其功率极限,每个生成的图像都有明确的开始和停止点。本节 新款 GeForce RTX 5090 与上一代 GeForce RTX 4090 和 RTX 6000 Ada 的测试结果对比。以下是详细评论的链接 GeForce RTX 5080 的成绩。
我们测试了华硕 PRIME RTX 5070 Ti,其额定功耗为 300W,用于功率测试。在 Procyon AI 图像生成测试期间,系统的功耗从空闲状态的 231W 增加到负载下的 601W,增加了 370W。负载下的平均功耗降至约 303W,这很有趣,因为该卡的额定功耗为 300W。
倒数第二张图像仅用了 11.1 秒就生成,在此期间系统消耗了 1.66Wh。
结语
GeForce RTX 5070 Ti 的突出特点之一是其性能。它在 AI 工作负载中提供了强大的结果,在许多基准测试中令人惊讶地接近 RTX 5080。对于那些希望物有所值的人来说,这是一个绝佳的选择,尤其是它配备了 16GB GDDR7,与 GeForce RTX 5080 相当。
RTX 749 Ti 售价 5070 美元,性能和功能达到了出色的平衡,对于精打细算的用户来说是一个有吸引力的选择。但是,该卡的功耗可能超过其额定的 300W,因此您可能需要更强大的电源和冷却解决方案。此外,虽然它的性能令人钦佩,但在要求更高的 AI 和渲染任务方面,它确实落后于 RTX 5080 和更高型号。
对于那些寻求功能强大且价格实惠的 GPU 的人来说,华硕 Prime GeForce RTX 5070 Ti 是强烈推荐的选择。它是 1440p 或 4K 游戏和入门级 AI 工作负载的理想选择,具有卓越的价值和 16GB GDDR7,但价格却不像高端型号那么昂贵。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅