AMD 已宣布新的 EPYC 9004 第 4 代 CPU 全面上市。 代號為 AMD Genoa 的新系列 CPU 支持 12 通道 DDR5-4800(每個插槽高達 6TB 內存容量)、128 條 PCIe Gen5 通道、AMD Infinity Fabric/Guard 技術以及多達 96 個內核。 這使它們成為跨雲、企業和高性能計算的關鍵工作負載的理想選擇。
AMD 已宣布新的 EPYC 9004 第 4 代 CPU 全面上市。 代號為 AMD Genoa 的新系列 CPU 支持 12 通道 DDR5-4800(每個插槽高達 6TB 內存容量)、128 條 PCIe Gen5 通道、AMD Infinity Fabric/Guard 技術以及多達 96 個內核。 這使它們成為跨雲、企業和高性能計算的關鍵工作負載的理想選擇。
EPYC 9004 第四代 CPU 對企業的好處
憑藉其在單個處理器中的 96 核數量,新的 AMD Genoa 處理器將允許組織通過部署更少的服務器同時利用更強大的服務器來減少物理佔用空間。 這為數據中心生態系統帶來了更大的靈活性,並幫助它們實現可持續性和麵向未來的目標。
AMD 構建新的 EPYC 處理器時非常注重增強安全性,特別是通過擴展 AMD Infinity Guard,該公司的一系列功能為其 CPU 提供物理和虛擬保護層。 例如,它的加密密鑰數量是前幾代產品的兩倍,這有助於客戶確保數據安全,無論數據是存儲在本地、雲端還是駐留在存儲器中。
組織將能夠受益於他們的“全能”功能集,可以選擇具有最適合他們需求的核心數量和頻率(見下表)的模型。 此外,第 4 代 AMD EPYC 處理器現在支持 DDR5 內存和 PCIe Gen 5,這兩者對於 AI 和 ML 應用程序都至關重要。 當然,企業級 SSD 供應商正迫不及待地將他們的驅動器推向主流,釋放出比第 4 代多一倍的帶寬潛力。
AMD Genoa 9004 系列 SKU
型號 | 核心 | 默認 TDP | 技術開發計劃 | 基地 (GHz) | 升壓 (GHz) |
9654 | 96 | 360w | 320-400w | 2.4 | 3.7 |
9634 | 84 | 290w | 240-300w | 2.25 | 3.7 |
9554 | 64 | 360w | 320-400w | 3.1 | 3.75 |
9534 | 64 | 280w | 240-300w | 2.45 | 3.7 |
9454 | 48 | 290w | 240-300w | 2.75 | 3.8 |
9354 | 32 | 280w | 240-300w | 3.25 | 3.8 |
9334 | 32 | 210w | 200-240w | 2.7 | 3.9 |
9254 | 24 | 200w | 200-240w | 2.9 | 4.15 |
9224 | 24 | 200w | 200-240w | 2.5 | 3.7 |
9124 | 16 | 200w | 200-240w | 3.0 | 3.7 |
9474F | 48 | 360w | 320-400w | 3.6 | 4.1 |
9374F | 32 | 320w | 320-400w | 3.85 | 4.3 |
9274F | 24 | 320w | 320-400w | 4.05 | 4.3 |
9174F | 16 | 320w | 320-400w | 4.1 | 4.4 |
9654P | 96 | 360w | 320-400w | 2.4 | 3.7 |
9554P | 64 | 360w | 320-400w | 3.1 | 3.75 |
9454P | 48 | 290w | 240-300w | 2.75 | 3.8 |
9354P | 32 | 280w | 240-300w | 3.25 | 3.8 |
AMD 熱那亞——Zen 4 架構
去年 4 月發布的 Zen 9004 是 AMD EPYC 9004 CPU 的新微架構,具有 AMD 迄今為止性能最高的內核。 這有助於 EPYC 4 CPU 在性能和能效方面達到新的領先水平,並允許客戶加速數據中心現代化,以獲得更高的應用程序吞吐量和更多可操作的見解。 Zen 7000 還為其新的消費級 Ryzen XNUMX 台式機處理器提供動力。
Zen 4 帶來的更大變化之一是它不再支持 DDR4 內存,因為它已完全轉向 DDR5-only。 此外,Zen 4 支持新的 AMD EXPO SPD 配置文件,允許 RAM 製造商進行更全面的內存調整和超頻。
其他一些新功能包括:
- 快速私有 1M L2 緩存
- 每個內核支持從 L2 到 L3 的更多未命中
- 支持從 L3 到內存的更多未命中
- 改進的 L3 和 L2 miss BW
- 更高的 BW 可實現預取改進
Zen 4 微架構概述
禪 4 與禪 3
AMD EPYC 9004 系列對前幾代產品的改進
新的 AMD Genoa 提供了一系列顯著的改進,包括最大內核數增加到每個 CPU 高達 96 個。 與前幾代相比,這一點意義重大:
- 最大值 64核心 每個 CPU 與 7773X 和 7763 (3rd Gen EPYC)型號
- 最大值 40核心 每個 CPU 與 8380 (3rd Gen Xeon Platinum) 型號
AMD 表示,就更快的解決方案時間而言,與競爭對手相比,這將轉化為大約 2.3 倍的性能(或 1.6 倍的每瓦性能)。 這將是我們從他們的下一代版本中看到的整體性能的最大提升。 對於每秒企業業務操作,4th Gen AMD 期望他們的 EPYC CPU 提供約 2.6 倍的性能,同時暗示在使用 Arnold Autodesk 時渲染速度提高 2.4 倍。
由於 Zen 4 架構,它還提供了核心性能的顯著升級,並且服務器 CPU 的 IPC 提升可能增加約 14%。
新的 EPYC 9004 系列還具有領先的平台功能,可擴展:
- 具有增強單列性能的 12 通道 DDR5-4800
- 128L 32Gps 和 8L 8Gps 多功能 SERDES(串行器/解串器)
此外,它還具有 CXL1.1+ 內存支持(CXL“Type3”),包括用於 DDR 和新興內存的高級內存附加功能,以及 SEV-SNP、QoS 和分層內存管理擴展。 為了增強安全性,它支持 SEV-SNP 密鑰擴展和 AES-256-XTS。
AMD EPYC 9004 系列內存
AMD Genoa CPU支持單CPU 12通道,單槽容量6TB,最高支持DDR4800,理論上峰值帶寬也可以達到460GB/s。
以下是第 3 代和第 4 代內存帶寬性能比較的概覽:
AMD EPYC 9004系列CPU定位
與上一代產品一樣,AMD 將其新 CPU 分為三個不同的組:
- 核心性能,它由具有大高速緩存/核心比率的高頻 CPU 組成。 屬於此範圍的型號包括 9474F(48 核@360W)、9374F(32 核@320W)、9274F(24 核@320W)和 9174F(16 核@320W)。
- 核心密度,它由最高的核心和線程數 CPU 組成。 屬於此範圍的型號包括 9654/P(96 核@360W)、9634(84 核@290W)、9554/P(64 核@360W)、9534(64 核@280W)和 9454/P(48 核@290W) ).
- 平衡和優化的性能,它由具有性能和 TCO 平衡的 CPU 組成。 屬於此範圍的型號包括 9354/P(32 核@280W)、9334(32 核@210W)、9254(24 核@200W)、9224(24 核@200W)和 9124(16 核@200W)。
AMD 熱那亞 9004 CPU 性能
對標配置
對於我們的初始測試,我們在第一批 CPU 密集型工作負載中將當前的高端 Intel 和 AMD 平台相互定位。 對於我們的英特爾平台,我們利用了我們最初的雙 CPU 英特爾 8380 平台,該平台圍繞英特爾 OEM 服務器構建,而我們的雙 CPU AMD EPYC 9654 平台位於 Quanta 機箱內。
英特爾平台規格:
2 個 Intel Xeon Platinum 8380 40 核 CPU
16 個 32GB 3200MHz DDR4
Windows Server 2022 操作系統
AMD 平台規格:
2 個 AMD EPYC 9654 96 核 CPU
24 個 64GB 4800MHz DDR5
Windows Server 2022 操作系統
的V-Ray
V-Ray Benchmark 是 Chaos Group 的一款應用程序,用於對各種 CPU 和 GPU 進行評分和比較。 Chaos Group 以其在可視化和渲染方面的工作而聞名,專注於光線追踪技術。 V-Ray Benchmark 包含一個自定義構建測試場景,用於測試 CPU 和 GPU 的任意組合,並將一個系統的性能與另一個進行比較。
在我們的實驗室中,我們在僅 CPU 模式下使用了 V-Ray 基準測試。 為了最大限度地減少任何潛在的瓶頸,我們使用了 Solidigm P5520 7.68TB NVMe SSD 和全新安裝的 Windows Server 2022。V-Ray 排行榜的頂部以前是 2x AMD EPYC 7K83 64 核處理器系統,得分為令人印象深刻的 100,844 次測試的平均值為 6。 我們配備 2 個 AMD EPYC Genoa 96 核的示例係統在 126,940 項測試中的平均得分為 9。 與英特爾系統相比
Firefox 從源代碼構建
Firefox 是 Mozilla 的瀏覽器,是一個龐大的開源項目。 Mozilla 熱衷於為您提供自己從源代碼編譯項目的能力,這種能力作為比較性能的工具已經變得越來越普遍。 下載量為幾千兆字節,需要編譯數千個文件。
在我們的測試中,英特爾至強 6 平台的 57 分 8380 秒時間給我們留下了深刻的印象,直到我們在熱那亞平台上啟動它,它以 6 分 33 秒的驚人速度出現第二次編譯時間。 相比之下,一個頂級工作站將能夠在幾乎不到 10 分鐘的時間內完成這項任務,如果你給它提供穩定的液氮和過電壓飲食,這意味著我們正在處理一些嚴重的原始馬力這些芯片。
FF 從源代碼構建 | |
2 個 AMD 9654 96 核 | 6:33.85 |
2 個英特爾 8380 40 核 | 6:57.85 |
Blender – CLI 基準測試
Blender Benchmark 是 CPU 和 GPU 基準測試領域的既定標準。 Blender 是一種開源 3D 建模和動畫工具,非常先進,被認為是該領域的領導者。 與 Genoa EPYC 處理器的主題一致,我們正在利用它來展示混合架構的靈活性,該架構能夠支持 CPU 和潛在的 GPU 替代品,用於高密度機架部署。
Blender 具有三個基準,分別稱為 Monster、Junkshop 和 Classroom。 這是三個按順序渲染的場景,每個部分都有一個分數,然後將其相加得出總分。
攪拌機測試 | 2 個 AMD 9654 96 核 | 2 個英特爾 8380 40 核 |
Monster | 1788.189128 | 671.145395 |
舊貨店 | 1062.533142 | 407.141514 |
課堂 | 850.646333 | 320.507039 |
總額 | 3701.368603 | 1398.793948 |
Genoa 鑽機的總得分為 3701,Monster 為 1788.2,Junkshop 為 1062.5,Classroom 基準測試為 850.6。 將 Genoa 與 Intel Xeon Platinum 進行比較在某些方面似乎不公平,考慮到 Intel 僅以大約 41% 的核心數量進行打擊,但是,如果我們查看數據並對核心數量的差異進行標準化,結果會變得有趣. 得益於更新的架構、指令集和 DDR5 的使用,AMD Genoa 芯片比英特爾芯片快 10%。
2 個 AMD 9654 96 核 | 相對英特爾核心數百分比 | 2 個英特爾 8380 40 核 |
192核心 | 41.67% | 80核心 |
384主題 | 41.67% | 160主題 |
2 個 AMD 9654 96 核 | 2 個英特爾 8380 40 核 | |
攪拌機總分 | 3701 | 1399 |
內核/線程 | 192/384 | 80/160 |
英特爾核心數/AMD | 41.67% | |
直接分數比較 Intel/AMD | 37.79% | |
核心歸一化 AMD 分數 | 1542 | |
相對 Intel/AMD,核心歸一化 | 90.70% |
Cinebench R23
一段時間以來,Maxon 的 Cinebench 一直是基準測試的中流砥柱,這要歸功於其標準化的測試方法以及使用實際測試來對多核和單核性能進行基準測試。 R23,Cinebench 的最新版本,確實有一個我們以前沒有解決過的限制; 它只能對 256 個核心/線程進行基準測試。 我們的測試平台有 384 個。有趣的是,我們遇到的許多“標準”基準測試和應用程序的核心上限為 256 個,因此 Cinebench 並不是唯一一個需要為我們所引領的超核心數未來進行更新的人向。
為了嘗試解決此限制,我們同時運行了兩個測試,並將每個實例的上限限制為 196 個線程,以嘗試平均分配負載。 通常,您可以在任務管理器中設置 CPU 親和力,但是,某些東西阻止了 Cinebench 的此操作,我們懷疑它是在調用 API 以獲取 CPU 優先級的底層方式中設置的標誌。 我們嘗試以權限較低的用戶身份運行它,並使用命令行“start /affinity NODE 0”標誌啟動以嘗試強制執行它,但無法將應用程序鎖定到單個 NUMA 節點。
無法為程序分配特定的親和力,我們只是運行應用程序兩次並同時啟動它們。 結果顯示應用程序的兩個實例的兩個截然不同的分數,但是通過監控 CPU 使用率,我們能夠觀察到它在測試期間的利用率在 80 -100% 之間波動。
Cinebench 單實例 | 2 個 AMD 9654 96 核 | 2 個英特爾 8380 40 核 |
多線程(256 帽) | 85,160 | 70,540 |
單核 | 972 | 985 |
MP比率 | 87.65x | 71.63x |
2 個 Cinebench 實例 | ||
AMD 試運行 1 | AMD 試運行 2 | |
得分,一審 | 82,063 | 68,231 |
得分,二審 | 57,557 | 57,221 |
總額 | 139,620 | 125,452 |
最後的思考
至少可以說,AMD EPYC 9004 CPU 的基準測試過程是一個有趣的練習。 我們在早期審查過程中面臨的挑戰表明,隨著 CPU 格局轉向超高密度模型,軟件開發人員將不得不應對的總體挑戰。 雖然有一些現成的應用程序可以利用它,但我們越來越多地發現無法擴展超過某些線程數閾值的軟件的局限性。
在實驗室中,我們正在研究一些本土的 Tensorflow 機器學習基準測試,以便能夠在真實場景中測試這些新的 CPU。 當我們對新應用程序的結果有信心並在多個平台和多代 CPU 上對其進行驗證時,我們將跟進結果。
不過就目前而言,AMD Genoa 的推出非常令人興奮,正如我們迄今為止在 Quanta 服務器上看到的那樣。 加, HPE 戴爾 已經發布了他們的服務器,每個都提供四個系統,兩個 1 CPU 機箱和兩個 2 CPU 機箱。 這將使 AMD Genoa 立即進入企業,迅速將 Genoa 的足跡擴大到超大規模。
那麼一個大問題是顯而易見的,AMD Genoa 值得投資嗎? 這將歸結為證明支出合理的工作量,但就像 適用於 VMware 的 DPU, 這些新的 CPU 技術在計算能力、安全性和效率方面有很大的幫助。 用這些取代第 3 代 EPYC 可能有點為時過早,但任何一直在等待跳躍理由的人都應該很高興看到熱那亞帶來了什麼。
我們有更多的測試和工作要做,隨著 Intel Sapphire Rapids 即將推出,我們將希望比較每個提供的最佳性能。 但就目前而言,AMD 熱那亞非常引人注目,應該出現在任何基礎設施更新 PoC 中,這樣組織就可以更好地了解 AMD 必須提供的所有這些內核和效率的影響。
參與 StorageReview
電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱