首页 电子消费品 AMD Radeon RX 9070 XT 评测:性能强劲,仍有提升空间

AMD Radeon RX 9070 XT 评测:性能强劲,仍有提升空间

by 迪伦·多尔蒂

AMD Radeon RX 9070 XT 评测:一款拥有强大游戏性能的 1440p 强力显卡,但它在 AI 和效率方面能与 NVIDIA 抗衡吗?

AMD Radeon RX 9070 系列显卡今日发布。AMD 将华硕 Prime RX 9070 和 RX 9070 XT 显卡送至实验室进行测试。这些 GPU 基于该公司尖端的 RDNA 4 架构和台积电先进的 4nm 工艺技术,旨在为追求高刷新率 1440p 游戏和入门级 4K 体验的游戏玩家提供最佳性价比。9070 系列引入了令人印象深刻的技术进步,同时保持了相对于其性能等级的合理功耗数字。

这些 GPU 定位于中高端,将游戏性能与 AI 加速相结合,满足游戏玩家和创作者的需求。RX 16 系列配备 4GB VRAM、增强的光线追踪功能以及 AMD 最新的 AI 技术(如 FidelityFX Super Resolution 9070 和 HYPR-RX),旨在提供高性能的同时保持能效。

AMD Radeon RX 9070 XT 与 RX 9700 堆叠

RX 9070 XT 是高端型号,提供更高的时钟速度和更多图形核心,可满足苛刻的游戏工作负载。华硕的 PRIME 设计带来强大的冷却和供电能力,确保在重负载下始终如一的性能。这两款 GPU 都面向未来,具有 PCIe gen 5、DisplayPort 2.1 支持和适用于下一代应用程序的 AI 加速器,使其成为沉浸式游戏体验的理想选择。

AMD Radeon RX 9070 和 RX 9070 XT 规格

Radeon RX 9070 XT 与 Radeon RX 9070 规格
Radeon RX 9070 XT RX的Radeon 9070
GPU名称 Navi 48 Navi 48
GPU 变体 导航 48 XT 导航 48 XL
卓越 脱氧核糖核酸4.0 脱氧核糖核酸4.0
铸造厂 TSMC TSMC
工艺尺寸 4纳米 4纳米
晶体管 53,900千万 53,900千万
密度 151.0米 / 平方毫米 151.0米 / 平方毫米
模具尺寸 357mm² 357mm²
基地时钟 2400 MHz 2070 MHz
提升时钟 2970 MHz 2520 MHz
内存大小 16 GB 16 GB
内存类型 GDDR6 GDDR6
着色单元 4096 3584
人工智能加速器 128 112
TMU 256 256
个ROPs 128 128
计算单位 64 56
RT核心 64 56
AMD Infinity缓存 64 MB(第三代) 64 MB(第三代)
Magistrala pamięci 256 bit 256 bit
带宽 640 GB /秒 640 GB /秒
峰值像素填充率 190.1 GPixel / s 161.3 GPixel / s
峰值纹理填充率 730.3 格塞尔/秒 564.5 格塞尔/秒
峰值单精度吞吐量 48.7 TFLOPS 36.1 TFLOPS
峰值半精度吞吐量 97.3 TFLOPS 72.3 TFLOPS
峰值 INT8 AI TOPS 吞吐量 779 TOPS 578 TOPS
峰值 INT4 AI TOPS 吞吐量 1557 TOPS 1156 TOPS
TDP 304W 瓦 220W 瓦
建议的电源 750W 瓦 650W 瓦
输出 1 个 HDMI 2.1b、3 个 DisplayPort 2.1a 1 个 HDMI 2.1b、3 个 DisplayPort 2.1a
PCIe 接口 PCIe 5.0 x 16 PCIe 5.0 x 16
电源连接器 3x 8针 2x 8针
启动价格 $ USD 599 $ USD 549

RDNA 4 的新功能

AMD 的 RDNA 4 架构代表了前几代产品的重大进化,在多个领域带来了实质性的改进。这些新 GPU 的核心是重新设计的 RDNA4 计算单元,与 RDNA 40 相比,每个计算单元的性能提高了约 3%。这种效率提升来自改进的内存子系统和整个 GPU 中更优化的数据流路径。

借助 AMD 第三代 RT 加速器,光线追踪性能得到了显著提升。添加第二个光线交叉引擎可有效使光线盒和光线三角形测试操作的吞吐量翻倍,而这在前几代产品中是关键瓶颈。新的专用光线变换硬件进一步加速了这些工作负载,同时对定向边界框的支持可实现更高效的光线遍历和更低的内存开销。 

也许最重要的进步来自 AI 加速功能。RX 9070 系列采用第二代 AI 加速器,在使用稀疏 INT1,100 计算时,可为 9070 提供约 1,500 AI TOPS,为 9070 XT 提供超过 4 AI TOPS。这些专用 AI 单元具有扩展的数学管道,并支持新兴的 AI 数据格式。

新的 FSR4 技术是 AMD 对 NVIDIA DLSS 升级的回应,利用增强的 AI 加速器来实现 AMD 声称可以比原生更好的图像质量。使用专门针对 RDNA 4 硬件优化的基于机器学习的升级算法,FSR4 可以提高性能,同时保持出色的图像保真度。AMD 已将该系统设计为与 FSR 3.1 API 向后兼容,使开发人员可以轻松地将其实现到现有游戏中。

构建和设计华硕 Prime RX 9070 和 RX 9070 XT

新款华硕 Prime Radeon 9070 和 9070 XT 显卡的构造和设计与 华硕 Prime RTX 5070 Ti 我们之前评测过。它们在电源方面有所不同——两款卡都不需要特殊的 12 针电源线,9070 使用标准 8 针电源和 2x 8 针连接器,而 9070 XT 使用 3x 8 针连接器。两款卡都具有 2.5 PCIe 插槽设计高度要求。

AMD Radeon RX 9070 XT

在散热方面,华硕在 Radeon 9070 和 9070 XT 上采用了三轴流风扇设计和双滚珠轴承,以提高耐用性并保持稳定的气流。风扇与整个显卡上的大型散热器和热管搭配使用,而通风背板和侧面切口有助于最大限度地散热。当 GPU 温度降至 50°C 以下时,所有三个风扇都保持空闲状态,从而可以在轻负载或要求不高的游戏过程中实现静音运行。一旦温度超过 55°C,风扇就会自动恢复运行。

AMD Radeon RX 9070 XT 和 9070 冷却

从卡的底部插槽侧看,两种型号具有相同的冷却设计,具有相同的散热器、PCB 布局和带有通风开口的罩壳以促进气流。

两张卡的末端具有相同的安装点,用于安装可选的卡加强筋,以防止卡在安装在盒子中时下垂,并在运输过程中提供额外的稳定性。

AMD Radeon RX 9070 XT 端口

在这两款显卡的商务端,我们提供了显示连接选项,每个选项都具有 1 个 HDMI 2.1b 和 3 个 DisplayPort 2.1a 端口。华硕还采用了 304 不锈钢 PCIe 支架设计,以确保使用寿命和耐用性。

AMD Radeon RX 9070 XT 底部

这两款显卡的其他显著特点包括可切换的 BIOS,通过显卡上的开关控制,可在“P”(性能)模式和“Q”(静音)模式之间切换。两款产品还采用了相变导热垫,旨在提高冷却性能并延长与芯片接触的导热材料的使用寿命。最后,华硕提供了 GPU Tweak III 软件,用于微调显卡的性能以满足特定要求。

基准测试:华硕 Prime RX 9070 与 RX 9070 XT

为了测试华硕的新款 Radeon 显卡,我们使用了高性能 AMD Threadripper 平台,该平台具有 64 核 CPU 和定制水冷回路。此设置可确保 GPU 满负荷运行,而不会出现 CPU 瓶颈。为了进行比较,我们在这种配置下测试了华硕 Prime Radeon RX 9070 和 RX 9070 XT,以及 NVIDIA Founders RTX 4070 和 华硕 Prime NVIDIA RTX 5070 Ti.

以下是完整的系统配置。

StorageReview AMD Threadripper 测试平台

  • 主板: 华硕 Pro WS TRX50-SAGE WIFI
  • CPU: AMD Ryzen Threadripper 7980X 64 核
  • RAM: 128GB DDR5 4800MT/s
  • 存储: 2TB 三星 980 Pro
  • OS: Windows 11 Pro for Workstations
  • 司机: AMD 肾上腺素 25.3.1

UL Procyon:AI 文本生成

- Procyon AI 文本生成基准 通过提供紧凑一致的评估方法,简化了 AI LLM 性能测试。它允许在多个 LLM 模型上进行重复测试,同时最大限度地降低大模型大小和可变因素的复杂性。它与 AI 硬件领导者共同开发,优化了本地 AI 加速器的使用,以实现更可靠、更高效的性能评估。下面测量的结果是使用 TensorRT 在 NVIDIA 模型上测试的,使用 ONNX 在 AMD 模型上测试的。

UL Procyon:AI 文本生成 的AMD Radeon RX 9070 AMD Radeon RX 9070 XT NVIDIA GeForce RTX 4070 华硕 PRIME NVIDIA RTX 5070 Ti NVIDIA RTX 5070
菲总分 1,933 2,080 3,191 4,179 3,453
Phi 输出时间到第一个标记 0.954小号 0.855小号 0.356小号 0.290小号 0.323小号
每秒输出 Phi 令牌数 139.187 个代币/秒 144.471 个代币/秒 141.575 个代币/秒 192.487 个代币/秒 150.435 个代币/秒
Phi 总时长 26.989小号 25.587小号 21.743小号 15.771小号 20.302小号
米斯特拉尔总成绩 2,040 2.231小号 2,987 4,412 3,562
Mistral 输出第一个令牌的时间 1.109小号 0.946小号 0.508小号 0.374s 0.433小号
每秒 Mistral 输出代币数 101.300 个代币/秒 103.348 个代币/秒 99.590 个代币/秒 160.167 个代币/秒 120.507 个代币/秒
米斯特拉尔总持续时间 34.960小号 33.350小号 30.651小号 19.480小号 25.496小号
Llama3 总体评分 1,904 2,070 2,810 4,187 3,125
Llama3 输出第一个标记的时间 0.981小号 0.845小号 0.423 0.306小号 0.379小号
Llama3 每秒输出令牌数 87.594 个代币/秒 89.102 个代币/秒 82.130 个代币/秒 131.583 个代币/秒 100.388 个代币/秒
Llama3 总时长 38.273小号 36.742小号 36.147小号 22.786小号 29.720小号
Llama2 总体评分 2,047 2,298 2,658 4,284 3,125
Llama2 输出第一个标记的时间 1.926小号 1.565小号 0.947小号 0.560小号 0.785小号
Llama2 每秒输出令牌数 59.673 个代币/秒 61.127 个代币/秒 49.487 个代币/秒 75.905 个代币/秒 56.647 个代币/秒
Llama2 总时长 59.100小号 55.520小号 61.300小号 39.545小号 53.234小号

在 UL Procyon AI 文本生成测试中,华硕 Prime NVIDIA RTX 5070 Ti 在所有型号中以最高总分领先。它在 Phi 中取得 4,179 分,在 Mistral 中取得 4,412 分,在 Llama4,187 中取得 3 分,在 Llama4,284 中取得 2 分。AMD Radeon RX 9070 XT 紧随其后,在 Phi 中取得 2,080 分,在 Mistral 中取得 2,231 分,在 Llama2,070 中取得 3 分,在 Llama2,298 中取得 2 分。紧随其后的是 NVIDIA GeForce RTX 4070,在 Phi 中取得 3,191 分,在 Mistral 中取得 2,987 分,在 Llama2,810 中取得 3 分,在 Llama2,658 中取得 2 分。 AMD Radeon RX 9070 在所有类别中的总体得分最低,在 Phi 中达到 1,933,在 Mistral 中达到 2,040,在 Llama1,904 中达到 3,在 Llama2,047 中达到 2。

UL Procyon: 人工智能图像生成

- Procyon AI 图像生成基准 持续准确地测量各种硬件(从低功耗 NPU 到高端 GPU)的 AI 推理性能。它包括三项测试:针对高端 GPU 的稳定扩散 XL (FP16)、针对中等功率 GPU 的稳定扩散 1.5 (FP16) 和针对低功耗设备的稳定扩散 1.5 (INT8)。基准测试使用每个系统的最佳推理引擎,确保结果公平且具有可比性。

UL Procyon:AI 图像生成(总分:越高越好) 的AMD Radeon RX 9070 AMD Radeon RX 9070 XT NVIDIA GeForce RTX 4070 华硕 PRIME NVIDIA RTX 5070 Ti NVIDIA RTX 5070
稳定扩散 1.5 (FP16) — 总体得分 2,280 2,598 2,400 3,755 2,937
稳定扩散 1.5 (FP16) — 总时间 43.858小号 38.481小号 41.661s 26.625小号 34.038小号
稳定扩散 1.5 (FP16) — 图像生成速度 2.741 秒/图像 2.405 秒/图像 2.604 秒/图像 1.664 秒/图像 2.127 秒/图像
稳定扩散 1.5 (INT8) — 总体得分 31,048 46,744 36,320
稳定扩散 1.5 (INT8) — 总时间 8.052小号 5.348小号 6.883小号
稳定扩散 1.5 (INT8) — 图像生成速度 1.006 秒/图像 0.669 秒/图像 0.860 秒/图像
稳定扩散 XL (FP16) — 总体得分 1,805 2,010 1,940 3,352 2,473
稳定扩散 XL (FP16) — 总时间 332.400小号 298.499小号 309.269小号 178.946小号 242.606s
稳定扩散 XL (FP16) — 图像生成速度 20.775 秒/图像 18.656 秒/图像 19.329 秒/图像 11.184 秒/图像 15.163 秒/图像

在 AI 图像生成测试中,重点关注稳定扩散 1.5 (FP16) 和稳定扩散 XL (FP16),AMD Radeon RX 9070 系列表现稳健,但落后于 NVIDIA。RX 9070 得分 2,280,RX 9070 XT 得分 2,598,NVIDIA RTX 4070 得分 2,400,华硕 Prime NVIDIA RTX 5070 Ti 以 3,755 位居榜首。RX 9070 XT 在稳定扩散 XL (FP4070) 测试中的表现略优于 16,得分为 2,010,但仍落后于 5070 Ti 的 3,352。Radeon 卡的图像生成时间也比 5070 Ti 慢。

乐士马克

Luxmark 是一个 GPU 基准测试,它使用开源光线追踪渲染器 LuxRender 来评估系统在处理高度详细的 3D 场景方面的性能。该基准测试适用于评估服务器和工作站的图形渲染能力,特别是对于视觉效果和建筑可视化应用程序,其中准确的光模拟至关重要。

Luxmark(越高越好) 的AMD Radeon RX 9070 AMD Radeon RX 9070 XT NVIDIA GeForce RTX 4070 华硕 PRIME NVIDIA RTX 5070 Ti NVIDIA RTX 5070
食物评分 8,233 8,610 7,535 12,073 9,061
霍尔斯 16,566 16,758 20,003 28,635 22,062

在 Luxmark 测试中,华硕 Prime NVIDIA RTX 5070 Ti 在两个类别中均处于领先地位。它在食品测试中得分 12,073,在霍尔测试中得分 28,635,全面展现出强劲的性能。AMD Radeon RX 9070 XT 紧随其后,在食品测试中得分 8,610,在霍尔测试中得分 16,758,略优于标准 RX 9070。RX 9070 在食品测试中得分 8,233,在霍尔测试中得分 16,566,而 NVIDIA GeForce RTX 4070 在食品测试中得分 7,535,在霍尔测试中得分 20,003。总体而言,RTX 5070 Ti 是明显的领先者,4070 在两项测试中都落后。

Geekbench 6

Geekbench 6 是衡量整体系统性能的跨平台基准测试。Geekbench 浏览器可让您将任何系统与其进行比较。

Geekbench(越高越好) 的AMD Radeon RX 9070 AMD Radeon RX 9070 XT NVIDIA GeForce RTX 4070 华硕 PRIME NVIDIA RTX 5070 Ti NVIDIA RTX 5070
GPU OpenCL 分数 138,463 173,255 174,725 246,875 188,892

在 Geekbench GPU OpenCL 测试中,华硕 Prime NVIDIA RTX 5070 Ti 以 246,875 的强劲得分领先,远远超过竞争对手。紧随其后的是 NVIDIA GeForce RTX 4070,得分为 174,725,领先于两款 AMD Radeon 显卡。紧随其后的是 AMD Radeon RX 9070 XT,得分为 173,255,略低于 RTX 4070。标准 RX 9070 的得分为 138,463,在本次测试中排名垫底。

3D马克

3DMark Port Royal、Speed Way 和 Steel Nomad 是 GPU 基准测试,用于测试不同场景下的性能。Port Royal 专注于光线追踪,Speed Way 评估赛车模拟中的性能,Steel Nomad 则以高强度、逼真的图形来挑战 GPU。它们评估 GPU 在渲染、照明和动态场景中的能力。

3DMark 测试(分数越高越好) 的AMD Radeon RX 9070 AMD Radeon RX 9070 XT NVIDIA GeForce RTX 4070 华硕 PRIME NVIDIA RTX 5070 Ti NVIDIA RTX 5070
皇家港口 15,760 17,989 11,074 19,290 14,026
速度方式 5,791 6,237 4,477 7,709 5,869
钢铁游牧者 5,992 6,977 3,748 6,458 5,019

在以游戏为中心的 3DMark 基准测试中,AMD Radeon RX 9070 和 9070 XT 的表现优于 NVIDIA RTX 5070,其中 AMD Radeon RX 9070 平均高出 17%,RX 9070 XT 高出 28%。虽然 RTX 5070 在光线追踪方面不甘示弱,但 AMD 的显卡在原始游戏性能方面提供了更强大的选择。

功耗:华硕 Prime Radeon RX 9070 XT

功耗是任何高端或低端计算平台的重要组成部分。每一代新 GPU 在负载下都会消耗更多电量,这意味着需要更大的电源和充足的冷却气流。然而,功耗与性能还有另一个方面:更快的 GPU 可能会达到更高的峰值,但每个工作负载的持续时间会减少。

我们测试了华硕 PRIME RX 9070 XT 的功耗,其 TDP 额定值为 304W。在 Procyon AI 图像生成测试期间,功耗从空闲时的 243W 上升到负载下的 849W,增加了 606W。负载下的平均功耗约为 676W。这比同期的 NVIDIA 型号高得多,使整个系统的负载更大。

倒数第二张图像仅用了 17.4 秒就生成,在此期间系统消耗了 3.41Wh。

电源测试
总结
AMD 9070XT NVIDIA RTX 5070 华硕 Prime NVIDIA RTX 5070 Ti NVIDIA RTX 5080 NVIDIA RTX 5090
耗电量 3.41Wh 2.46Wh 1.66Wh 1.39Wh 1.16Wh
测试时间 17.4小号 19.2小号 11.1小号 8.7小号 5.1小号

结语

AMD 的华硕 Prime Radeon RX 9070 系列集高性能、高效率和经济实惠于一身,是游戏玩家和内容创作者的绝佳选择。这些基于 RDNA 4 架构的 GPU 在处理入门级 AI 工作负载的同时,在 1440p 和 4K 游戏方面表现出色。RX 16 配备 6GB GDDR9070 内存,可确保为要求苛刻的任务提供充足的带宽。

第三代光线追踪 (RT) 加速器提供了重大改进,包括第二个光线交叉引擎和优化,使光线遍历能力比之前的 RDNA 3 翻倍,从而增强了光线追踪性能。此外,RX 3 系列支持第二代 AI 加速器,通过支持新数据类型和优化,提升 AI 性能,从而加快游戏和内容创作的处理速度。

ASUS Prime Radeon RX 9070 系列在游戏工作负载方面表现良好,但在 AI 任务方面表现落后。在图像生成等领域,9070 XT 比 NVIDIA 同类产品消耗更多电量才能完成相同的工作。这种更高的功耗会影响长时间工作负载下的效率,而 NVIDIA 在效率和 AI 任务方面占有优势。然而,RX 9070 系列以更实惠的价格提供了强大的效果,使其成为寻求 AI 加速和通用性能的用户的理想选择。虽然驱动程序限制了一些 AI 工作负载,但随着显卡的成熟,我们预计这方面将会出现增长,我们仍然乐观地认为 AMD 在这一类别的持续投资将获得回报并为消费者提供更多选择。

AMD Radeon GPU

参与 StorageReview

电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅