AMD Zen 5 架构采用创新的模块化设计,使 AMD 能够为台式机、服务器、客户端和嵌入式设备打造 CPU。
AMD 的 2024 年技术日公布了最新进展背后的细节,涵盖了很多内容,尤其是最新的 Zen 5 CPU 和 XDNA AI 中心架构。此次活动强调了 AMD 的愿景,即彻底改变 AI 效率、性能和跨多个应用程序的无缝集成,重申其在高性能计算领域的领导地位。
与微软的战略合作为 AMD 在 AI PC 体验方面的领导地位奠定了基础,为各种应用提供了前所未有的效率、性能和集成度。第五代 EPYC CPU 拥有多达 5 个内核和 192 个线程,有望显著提高能效和 AI 加速。AMD 表示,凭借先进的分支预测、双解码管道和新的数学加速单元,Zen 384 的单核 AES-XTS 性能比上一代提升了 5%,机器学习任务提升了 35%。随着 AMD 不断突破处理能力和效率的界限,Zen 32 架构有望彻底改变数据中心和服务器市场。
AMD Zen 5 架构采用创新的模块化设计,使 AMD 能够打造针对台式机、服务器、客户端和嵌入式应用量身定制的产品。采用 4nm 和 3nm 工艺技术可确保基于 Zen5 的产品能够在各种用例中提供优化的性能和能效。
AMD Zen 5
在 AMD 2024 年技术日的演讲中,Mark Papermaster 公布了 Zen 5 架构的重大改进,特别是第五代 EPYC CPU。EPYC 系列将于 5 年下半年发布,有望提供无与伦比的性能和效率,将服务器和数据中心市场的密度和性能指标推向极致。
第五代 EPYC CPU 显著增加了核心数量和线程能力。这些增强功能还包括提高能效,这得益于与台积电的持续合作和优化的金属堆栈。后者显著提高了热性能和电气性能。该架构通过引入新的数学加速单元来利用先进的 AI 加速,与 Zen 5 相比,单核 AES-XTS 性能可提高高达 35%,单核机器学习任务可提高高达 32%。
Zen 5 的架构改进非常全面。指令提取和解码阶段已通过高级分支预测和双解码管道得到增强,以减少延迟并提高准确性。整数执行单元有了显著的升级,具有 8 宽的调度/退出功能和更统一的 ALU 调度程序,所有这些都在更大的执行窗口内。加载/存储改进包括 48KB 12 路 L1 数据缓存,L1 缓存和浮点单元的最大带宽增加了一倍,这对于数据密集型操作至关重要。
Zen 5 架构还显著提升了数据带宽。加载/存储方面的改进,加上 48KB 12 路 L1 数据缓存,使 L1 缓存和浮点单元的最大带宽翻倍,这对于数据密集型操作至关重要。该架构能够处理大量浮点指令,并配备 AVX-512 和完整的 512 位数据路径,确保 AI 和矢量工作负载的性能大幅提升。
浮点和矢量数学单元的执行也得到了显著的改进。AVX-512 具有完整的 512 位数据路径和六条管道(为浮点加法运算提供两周期延迟),显著增强了管理并发浮点指令的能力。这尤其有利于矢量和 AI 工作负载,从而显著提高机器学习和数据密集型任务的性能。这与 Zen 4 形成了鲜明对比,AMD “双倍提升”了 256 位路径以实现 512 位性能。
与上一代 Zen 5 相比,Zen 16 为台式机和移动处理器带来了 4% 的平均 IPC 提升。这是通过架构改进实现的,包括更宽的调度和执行单元、更大的数据带宽和增强的预取算法。IPC 的提升转化为各种应用程序(从游戏到内容创作和机器学习)的实际性能改进。
在 GPU 方面,AMD 继续优化其 RDNA 3 架构,以提高功率性能效率。AMD 声称其每瓦性能比以前的 Ryzen CPU 高出 32%。这是通过更好的内存管理、双倍速率的常见游戏纹理操作和增强的电源管理功能实现的。
AMD 的 Zen 5 架构是 Zen 架构的一次令人印象深刻的进化,尤其是对于 EPYC 系列而言,它有望全面提升从台式机和移动设备到服务器和数据中心市场的性能标准。凭借某些芯片在核心数量、线程、能效和 AI 加速方面的显著改进,第五代 EPYC CPU 有望满足现代以数据为中心的工作负载日益增长的需求。
XDNA
人工智能集团高级副总裁 Vamsi Boppana 概述了 AMD 全新以人工智能为中心的架构的变革潜力。人工智能工作负载的指数级增长和专业化需要创新的计算架构,而 AMD 的回应是推出 XDNA 2 架构。
这项创新的核心是 AMD XDNA 架构,该架构以其在各种 AI 和 DSP 应用领域的丰富经验而闻名,涵盖通信、5G 部署、国防雷达信号处理、3D 视点的广播实时 AI 处理以及医疗保健图像处理。该架构从传统的固定计算和基于缓存的内存层次结构转变为更灵活、适应性更强的模型。这种空间可重构和平铺数据流架构可实现高效的多任务处理和保证实时性能。
演示重点介绍了集成 NPU 的 AMD x86 处理器,旨在为 AI 工作负载提供高效率和高性能。第三代 AMD Ryzen AI 处理器在 NPU 功能方面取得了重大进步,可实现高达 3 TOPS(每秒万亿次运算),并集成多达 50 个 CPU 核心和 12 个 GPU 计算单元。这些处理器将为 Adobe、Black Magic 和 Topaz Labs 等平台上的 16 多种 AI 驱动体验提供支持,使其成为下一代 AI PC 体验的核心。
XDNA 2 架构中的 AI 引擎增强了对各种数据类型(如 INT8 和 Block FP16)的支持,从而确保了一系列 AI 应用程序的高性能和准确性。自适应 AI 架构允许在 AMD 产品组合中进行可扩展集成,通过空间可重构性和平铺数据流架构提供高效的多任务处理和有保证的实时性能。
特别是,Block FP16 可以替代 FP32 模型,而且几乎没有精度损失,这使得它能够高效地完成图像生成、语言模型以及实时音频和视频处理等任务。
一个突出的功能是能够在运行时配置 XDNA 结构。这允许灵活地使用数据路径和 NPU 分段来同时运行不同大小的多个模型。它还提供了提供 AI 驱动体验(如 Copilot+)的灵活性,以提高生产力和沉浸式协作。在 AMD 的 CPU、GPU 和 NPU 组件中集成统一的 AI 软件堆栈可实现广泛的模型支持和优化的性能,使开发人员能够更轻松地快速有效地部署数千个 AI 模型。
AMD XDNA 2 架构展现了 AI 技术的重大飞跃。它拥有多达 XNUMX 个并发空间流,功耗效率比前几代产品高出一倍。这使得 AMD 的解决方案功能强大且效率高,为 PC 及其他领域 AI 应用的新时代铺平了道路。
第三代 AMD Ryzen AI 处理器还通过引入新的 Trusted IO 功能增强了安全性。这种安全性增强对于保护敏感数据和确保 AI 驱动应用程序的可靠性能至关重要,这强化了 AMD 对安全高效的 AI 解决方案的承诺。
AMD Zen 5 和 XDNA 2 规格
Zen 5建筑 | |
专栏 | 信息 |
工艺技术 | 4nm 和 3nm |
核心计数 | 多达192个核心 |
线程计数 | 多达 384 个线程 |
缓存 | 48KB 12 路 L1 数据缓存 |
带宽 | 将 L1 缓存和浮点单元的最大带宽增加一倍 |
整数执行 | 8 个宽调度/退出、6 个 ALU、3 个乘法 |
浮点执行 | AVX-512,具有完整的 512 位数据路径、6 条管道 |
人工智能加速 | 新数学加速单元 |
IPC提升 | 相比 Zen 16,平均 IPC 提升 4% |
性能提升 | 单核 AES-XTS 性能提升 35%,机器学习任务性能提升 32% |
电源效率 | 通过增强金属堆栈优化性能/功耗 |
行业应用 | 台式机、移动设备、服务器和数据中心 |
XDNA 2 架构 | |
AI引擎磁贴 | 高达 32个 |
人工智能性能 | 最多 50 个 TOPS |
核心计数 | 多达12个CPU内核 |
GPU计算单元 | 高达 16个 |
支持的数据类型 | INT8,块FP16 |
效率 | 与上一代产品相比,能效提高了 2 倍 |
竞争对手流 | 高达 8个 |
安全性 | 新的 Trusted IO 功能 |
软件堆栈 | 跨 CPU、GPU 和 NPU 的统一 AI 软件堆栈 |
实时性能 | 通过空间架构保证实时性能 |
应用 | 游戏、娱乐、个人人工智能助理、内容创作、企业生产力 |
使用曲线整形器对 Zen 5 台式机进行超频
AMD 的曲线优化器是 Ryzen 7000 系列的标志性功能,它允许用户启用 PMFW/PBO 感知动态电压调节或降压。这款功能强大的工具通过可调节的“曲线优化器”步骤动态地改变电压曲线,在整个频谱范围内提供可变电压,并在更高频率下分配更多电压。用户可以按每个核心、每个 CCD 或每个 CPU 应用此优化,从而可以精细控制其 CPU 的性能和效率。
在曲线优化器的基础上,AMD 推出了曲线整形器,这是一项复杂的增强功能,使用户能够重塑底层电压曲线,以最大限度地提高欠压潜力。曲线整形器采用与其前身相同的步骤。不过,它允许用户灵活地从 15 个不同的频率温度带(三个温度带和五个频率带)中选择添加或删除步骤。这种微调功能允许用户进一步降低稳定带中的电压,同时在观察到不稳定的区域增加电压。重塑的曲线均匀应用于所有核心,可以使用曲线优化器进一步调整。
关闭的思考
2024 年 AMD 技术日是一次很棒的活动,我们有幸与产品背后的工程师进行了深入交流。AMD 在 XDNA 2 架构和 Zen 5 CPU 方面的最新进展彰显了其引领 AI 和高性能计算革命的承诺。凭借核心数量、线程、能效和 AI 加速方面的突破性改进,AMD 将重新定义行业标准并满足现代数据中心工作负载日益增长的需求,确保桌面、移动、服务器和数据中心应用程序的广泛性能。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅