Dell PowerEdge R770 評測:英特爾至強 6 CPU、OCP DC-MHS 模組化、令人印象深刻的性能、靈活性以及密集 2U 機箱中的 AI 支援。
戴爾的 PowerEdge R7x0 系列伺服器長期以來一直是資料中心的基石,以其多功能 2U 外形的卓越構造品質、周到的設計、效能、密度和可靠性而聞名。這些伺服器一直在不斷發展以滿足不斷變化的需求。現在,隨著 Dell PowerEdge R770 的推出,該系列取得了重大的飛躍。
TR770 首次推出了英特爾全新 Xeon 6 處理器系列,其中包括 Xeon 6500 和 6700 P 和 E 核心處理器。這標誌著戴爾首次在其主流伺服器產品線中全面採用OCP 資料中心模組化硬體系統(DC MHS)標準。總的來說,這兩項變化預示著能力和設計理念的重大進步。
滿足現代資料中心的需求
R770 的推出正值資料中心面臨越來越大的壓力之時。工作量越來越多樣化,要求也越來越高。數據的不斷增長推動了對強大分析和資料庫的需求。從訓練複雜模型到部署即時推理,人工智慧不再是小眾應用,而是需要大量運算能力和專門加速的核心業務驅動因素。
同時,人們非常重視能源效率和優化整體擁有成本。此外,業界也越來越重視開放標準,以促進創新、增強互通性並可能減少供應商鎖定。 R770 配備新的處理器選項並採用 OCP DC MHS,旨在正面應對這些挑戰。
Intel Xeon 6 P 核心處理器
R770 處理器採用英特爾至強 6 系列處理器,包括 6700 和 6500 系列,包含基於 Socket E2(LGA4710-2)平台構建的效能和效率核心。在本次評測中,我們特別關注 P 系列 SKU。
英特爾採用基於區塊的設計來建構這些處理器,將 I/O 區塊與一或兩個計算區塊結合。這使得該系列具有可擴展性,使用兩個計算區塊的配置最多可達 86 個 P 核心(XCC),使用單一計算區塊的配置最多可達 48 個 P 核心(HCC)或 16 個 P 核心(LCC)。
與上一代 Sapphire 和 Emerald Rapids 處理器相比,這些處理器的一個主要區別是所有 Xeon 6 處理器均通用內建加速器。其中包括用於加密和壓縮的英特爾 QuickAssist 技術、用於資料移動的英特爾資料流加速器、用於資料庫和分析加速的英特爾記憶體分析加速器以及用於網路處理效率的英特爾動態負載平衡器。
記憶體和 I/O 頻寬也有大幅升級。 Xeon 6700/6500 P-core系列支援8頻道DDR5記憶體。它們還為多路復用列 DIMM (MRDIMM) 鋪平了道路,可提供高達 8,800 MT/s 的速度。在 I/O 方面,這些處理器支援 PCIe 5.0 和 CXL 2.0。在雙插槽配置中,此平台每個插槽可提供最多 88 個 PCIe 頻道(總共 176 個頻道)。
儘管 P 核和 E 核存在差異,Xeon 6 系列在指令集、BIOS、驅動程式、作業系統/應用程式支援和 RAS 功能方面保持一致,從而簡化了跨不同部署類型的整合和管理。 P 核變體針對的是每核心效能、AI 加速、高記憶體頻寬和大量 I/O 至關重要的工作負載;想想要求嚴格的資料庫、HPC 模擬、進階分析以及廣泛的 AI 應用。
Dell PowerEdge R770 規格
規範 | 戴爾PowerEdge R770 |
處理器 | 兩個 Intel Xeon 6 處理器,每個處理器最多有 144 個 E 核心或 86 個 P 核心 |
記憶體應用 | 32 個 DDR5 DIMM 插槽,支援最大 8 TB RDIMM,速度高達 6400 MT/s,僅支援已註冊的 ECC DDR5 DIMM |
存儲控制器 | 內部啟動:啟動最佳化儲存子系統 (BOSS-N1 DC-MHS):HWRAID 1、2 x M.2 NVMe SSD 或 M.2 插入器板 (DC-MHS):2 x M.2 NVMe SSD 或 USB、內部控制器:前置 PERC H965i、前置 PERC H975i、前置 PERC H365i |
前後托架 |
|
熱插拔電源 |
|
冷卻選項 | 空氣冷卻和直接液體冷卻(DLC 是一種機架解決方案,需要機架歧管和冷卻分配單元 (CDU) 才能運作) |
風扇 | 高性能銀牌 (HPR SLVR) 風扇/高性能金牌 (HPR GOLD) 風扇,最多 6 個熱插拔風扇 |
尺寸和重量 | 高度 – 86.8 毫米(3.42 英寸),寬度 – 482 毫米(18.97 英寸),重量 – 28.53 公斤(62.89 磅),深度(後置 I/O 配置)– 802.40 毫米(31.59 英寸)(含擋板),801.51. 31.56 毫米(814.52 吋)(不含擋板) |
外形 | 2U機架式服務器 |
嵌入式管理 | iDRAC、iDRAC Direct、帶有 Redfish 的 iDRAC RESTful API、RACADM CLI、iDRAC 服務模組 (iSM)、NativeEdge Endpoint、NativeEdge Orchestrator |
Bezel 擋板 | 可選安全擋板 |
安全性 | 加密簽章韌體、靜態資料加密(具有本機或外部金鑰管理的 SED)、安全啟動、安全元件驗證(硬體完整性檢查)、矽信任根、系統鎖定、系統鎖定(需要 iDRAC10 Enterprise 或 Datacenter)、機箱入侵偵測、TPM 2.0 FIPS、CC-TCG 認證 |
網絡選項 |
|
GPU 選項 | 最多 6 個 75 W FHHL 或最多 2 個 350 W DWFL |
連接埠數量 | 前置連接埠:1 x USB 2.0 C 型連接埠、1 x USB 2.0 A 型連接埠(選購)、1 x Mini-DisplayPort(選購)、1 x DB9 串列(前置 I/O 配置)、1 x 用於 iDRAC 管理的專用乙太網路連接埠;後置連接埠:1 個用於 iDRAC 管理的內部連接埠 |
PCIe |
|
作業系統和管理程序 | Canonical Ubuntu Server LTS、帶有 Hyper-V 的 Microsoft Windows Server、Red Hat Enterprise Linux、SUSE Linux Enterprise Server、帶有 vSphere 的 VMware |
Dell PowerEdge R770 採用 OCP DC MHS 模組化設計
資料來源:伺服器/DC-MHS – OpenComputer
Dell PowerEdge R770 在實體設計和元件架構方面具有顯著的進步和靈活性,並採用了開放運算專案的資料中心模組化硬體系統 (OCP DC MHS) 標準。
R7 延續 R0x770 系列的傳統,提供廣泛的配置選項以滿足不同的部署需求。該系列的一個重大創新是在傳統後置 I/O 配置和前置 I/O 冷通道可存取配置之間進行選擇,從而為不同的資料中心佈局和可服務性要求提供更大的靈活性。儲存選項同樣多樣,從具有最少或沒有本地儲存的以計算為中心的節點,到支援 40 個 E3.S 驅動器以用於以儲存為中心的工作負載的高密度配置。
為了滿足對加速運算日益增長的需求,特別是對 AI 和 HPC 的需求,R770 擁有強大的擴展能力。根據機殼和立管配置,此伺服器最多可容納六個 Gen 5 x16 全高、全長 (FHFL) PCIe 卡。此外,它還支援安裝兩個雙寬度 GPU,使其成為可執行各種任務的強大平台。透過 OCP 3.0 夾層插槽提供網路靈活性,根據配置支援 x8 或 x16 卡。
戴爾還實施了多項設計改進,旨在提高可維護性和可靠性。一個典型的例子就是啟動最佳化儲存解決方案 (BOSS) 卡的演進。 R770 中的 BOSS 控制器先前透過電纜連接並內建於 PCIe 轉接卡中,現在作為 OCP 標準化卡實現,可直接與主機板連接,從而消除了電纜的複雜性。這款新的 BOSS 控制器還具有更快的 NVMe M.2 驅動器並結合了散熱器,以確保啟動設備的最佳運行溫度和性能。對於技術人員來說,另一個微妙但實用的改進是從傳統的跳線轉向更用戶友好的 DIP 開關,以實現清除 NVRAM 等功能。
最深刻的架構轉變是完全採用OCP DC MHS 標準。戴爾在前幾代產品中就開始融入 OCP 元素,特別是採用了 OCP 3.0 網路適配器插槽。 R770 將這項技術進一步提升。現在,關鍵組件均符合 OCP 規範,包括主機處理器模組 (HPM),通常稱為主機板,其中包括轉接槽等零件,現在是 M-XIO 連接器。 M-XIO連接器為轉接卡提供了標準化接口,增強了靈活性和可升級性。 iDRAC 也實作為 OCP DC-SCM(伺服器控制模組)。
此外,R770 還引入了新的 PICPWR 電源連接器,用於 GPU 和背板等周邊設備連接。此連接器是一個重要的附加功能,簡化了電力傳輸並結合了線上電源監控。
這種深度整合使各個子系統之間的介面和外形尺寸標準化。雖然戴爾強調用戶應該堅持使用經過驗證的組件以保證兼容性和支持,但底層的標準化使許多部件本質上更加方便用戶維護,並且將來可以在兼容系統之間互換。
管理和 iDRAC
Dell PowerEdge R770 在功能豐富且廣受歡迎的 iDRAC 9 基礎上添加了下一代 iDRAC 10,透過與資料中心安全控制模組 (DC-SCM) 的無縫整合增強了系統管理。這種整合可以簡化韌體更新和配置管理,確保跨資料中心的一致且可擴展的操作。 iDRAC 10 還支援進階自動化和監控功能,使 IT 管理員能夠有效管理大規模部署,而不會影響效能或可靠性.
安全性是 R770 管理功能的基石,戴爾實施了強大的預啟動和啟動驗證機制。 iDRAC 10 利用基於矽的信任根技術,確保所有韌體(包括 BIOS 和 iDRAC)在執行之前都經過加密驗證。這種不可變的基於硬體的安全措施可防止惡意軟體篡改和供應鏈攻擊,為系統運作提供安全的基礎。此外,R770 還採用了量子安全啟動協議來緩解新出現的加密威脅,進一步鞏固了其在保護關鍵基礎設施方面的作用.
戴爾對於供應鏈安全的承諾在 R770 的設計中得到了充分體現,它採用了全面的信任鏈認證流程。每個硬體組件都經過使用製造過程中嵌入的加密簽名的嚴格驗證。此流程可確保僅使用授權的韌體和組件,從而降低與未經授權的修改或假冒零件相關的風險。
人工智慧工廠的建構模組
R770 可與多種 GPU 和機箱配置一起訂購,使其成為適用於各種 AI 工作負載的多功能平台。這種靈活性及其強大的儲存和網路功能使其成為在 AI 工廠部署 AI 解決方案的組織的一個有吸引力的選擇。 AI工廠是指大規模創建、訓練和部署AI模型所需的基礎設施和工具。這些工廠對於開發自動駕駛汽車和機器人等先進系統至關重要,因為它們提供了有效處理大量資料集所需的運算能力和資料管道。
開發自動駕駛汽車和機器人系統需要大量反映真實世界場景的訓練資料。 NVIDIA 的 Cosmos NIM 是該領域的一項重大進步,它為開發人員提供了強大的工具包,以加速創建和部署 World Foundational Models 等實體 AI 系統。
了解世界基金會模型
世界基礎模型 (WFM) 是一種複雜的神經網絡,可以模擬真實世界環境並根據各種輸入預測準確的結果。與專注於特定任務的傳統 AI 模型不同,WFM 能夠理解物理世界的動態,包括物理和空間特性. 它們可以根據文字提示、圖像或其他輸入資料生成視頻,同時準確地表示運動、力量和空間關係。
NVIDIA Cosmos NIM:邁向世界基礎模式的墊腳石
NVIDIA 的 Cosmos NIM 是實現世界基礎模式的關鍵一步。它們使組織和人工智慧實驗室能夠產生合成訓練數據,從而有效地擴展訓練這些人工智慧模型所需的數據。我們部署了 Cosmos 預測 模型,一種通用模型,可以從文字或視訊提示中產生世界狀態,並透過預測幀來合成連續運動。
這些是我們利用 Cosmos 僅憑一張實驗室圖像就得到的一些有趣的結果。儘管並非完美無缺,但僅憑一張圖片就能呈現出來的效果已經令人印象深刻。
R770 能夠支援 NVIDIA H100 等高效能 GPU,並且具有強大的儲存和網路功能,使其成為尋求部署 AI 解決方案的組織的理想選擇。
透過利用 R770 的功能,組織可以有效地訓練和部署 Cosmos NIM 等 AI 模型,從而加速自動駕駛汽車和機器人系統的開發。 R770 的效能和可擴展性使其成為處理 AI 模型訓練所需的大量資料的理想平台,其多功能性使其能夠支援廣泛的 AI 工作負載。
GPU直接儲存
GPU 直接儲存是一種繞過 CPU 和系統內存,實現儲存裝置和 GPU 之間直接傳輸資料的技術。在傳統的資料傳輸中,資料從記憶體讀取到 CPU 的記憶體中,然後複製到 GPU 的記憶體中。此過程涉及多次資料複製,導致延遲增加並降低效能。 CPU 是一個瓶頸,需要處理儲存和 GPU 之間的資料傳輸。 GDS 透過直接允許儲存裝置與 GPU 記憶體之間傳輸資料來消除這一瓶頸。
我們對由 16 個磁碟機組成的儲存系統進行了 GDSIO 工作負載分析,逐步增加所使用的磁碟機數量,以了解儲存效能及其飽和 PCIe Gen 5 GPU 的能力。
GDSIO 讀取圖表說明了增加 KIOXIA CD8P SSD 的數量如何影響 r770 中的總體和平均讀取吞吐量。最初,隨著驅動器數量從一個增加到四個,總讀取吞吐量迅速擴大,達到約 50.2 GiB/秒。這表明系統僅用三到四個驅動器就可以使 PCIe Gen 5 x16 飽和以載入資料。超過五個驅動器後,總吞吐量就會穩定下來,這表示增加驅動器後吞吐量並沒有顯著提高。同時,每個驅動器的平均讀取吞吐量在最多 4 個驅動器時保持穩定,但隨著添加更多驅動器而下降。每個驅動器效能的下降是因為更多驅動器共享可用的 PCIe 總線頻寬,導致單一驅動器讀取次數減少。
相比之下,這些驅動器的寫入效能遠低於其讀取效能。所有 16 個驅動器均實現了 46.7GiB/s 的寫入頻寬,且驅動器的平均寫入速度幾乎保持不變。鑑於 KIOXIA CD8 產品組合中寫入效能容量較低,高容量版本或其他 PCIe Gen5 SSD 的表現會更好。
對 Dell PowerEdge R770 進行基準測試
從基準測試來看,R770 是戴爾的旗艦主線系統,因此將部署在許多不同的環境中。因此,我們對該平台進行了一套全面的基準測試,以了解該平台在不同環境中的表現。在一些測試中對聯想 ThinkSystem SR630 V4 進行了比較,以顯示頂級 E 核和 P 核 CPU 之間的差異。
系統配置
- 中央處理器: 2 個 Intel Xeon 6787P(各 86 個核心)
- 隨機存取存儲器: 32x Micron 64 GB 雙列 DDR5 6400 MT/s 總記憶體:2TB
- 電源: 2x 台達 1500W
- GPU: 1x NVIDIA H100 用於 TGI 基準測試,1x NVIDIA L4 用於其餘測試
- 網卡: 戴爾 BRCM 4P 25G SFP 57504S OCP 網路卡
- BOSS卡: BOSS-N1 DC-MHS 磁碟 0 和 1 SK 海力士 480 GB Dell NVMe ISE PE9010 RI M.2 480GB
- 磁碟: 背板 0 中的 5-1:三星 6.4 TB、戴爾 NVMe PM1745 MU E3.S 6.4 TB
AI工作負載效能
文本生成推理基準
文字生成推理(TGI)是 Hugging Face 開發的高效能 LLM 推理伺服器。它旨在優化 LLM 的部署和使用,使其成為生產環境的理想選擇。 TGI 支援各種開源 LLM,並提供張量並行、令牌流和連續批次等功能,從而提高其效能和效率。
文本生成推理 – QwQ 32B
TGI的基準測試功能用於評估其在不同配置和工作負載下的效能。 TGI 的基準測試功能可以更準確地表示現實世界的效能,因為它考慮了在生產環境中提供 LLM 的複雜性。
使用 LLM 產生文字涉及兩個主要階段:預填階段和解碼階段。預填充階段是初始步驟,其中 LLM 處理輸入提示以產生必要的中間表示。此階段計算量很大,因為它涉及在模型的一次前向傳遞中處理整個輸入提示。
在預填階段,輸入提示被標記並轉換為 LLM 可以處理的格式。然後,LLM 計算 KV 緩存,其中儲存有關輸入標記的資訊。 KV快取是促進輸出令牌產生的關鍵資料結構。
相較之下,解碼階段是一個自回歸過程,其中 LLM 在預填充階段產生的中間表示的基礎上,一次產生一個輸出標記。解碼階段在很大程度上依賴預填充階段產生的 KV 緩存,它為產生連貫且上下文相關的輸出標記提供了必要的上下文。
預填階段
隨著批次大小從 1 增加到 32,所有三個模型的延遲都會增加; DeepSeek-R1-Distill-Qwen-32 B 的延遲從批次大小為 29.97 時的 1 毫秒增加到批次大小為 76.95 時的 32 毫秒。同樣,GEMMA-3-27B-IT 和 Qwen/QwQ-32B 的延遲分別從 51.84 毫秒和 29.90 毫秒增加到 79.58 毫秒和 76.30 毫秒。
相反,隨著批次大小的增加,標記率顯著提高。當批次大小為 1 時,這三個模型的 token 速率範圍是每秒 192.95 到 334.46 個 token。當批次大小為 32 時,DeepSeek-R4158.67-Distill-Qwen-4021.40B、GEMMA-4194.13-1B-IT 和 Qwen/QwQ-32B 的令牌數分別激增至每秒 3、27 和 32 個。
批量大小 | DeepSeek-R1-Distill-Qwen-32B | GEMMA-3-27B-IT | Qwen/QwQ-32B | |||
---|---|---|---|---|---|---|
延遲(ms) | 代幣率 | 延遲(ms) | 代幣率 | 延遲(ms) | 代幣率 | |
1 | 29.97 | 333.64 | 51.84 | 192.95 | 29.90 | 334.46 |
2 | 30.21 | 662.09 | 52.55 | 380.61 | 29.95 | 667.80 |
4 | 32.40 | 1234.72 | 52.62 | 760.12 | 32.12 | 1245.47 |
8 | 36.98 | 2163.46 | 52.66 | 1519.19 | 36.69 | 2180.66 |
16 | 51.63 | 3125.50 | 60.96 | 2624.64 | 51.29 | 3147.61 |
32 | 76.95 | 4158.67 | 79.58 | 4021.40 | 76.30 | 4194.13 |
解碼階段
與預填充階段不同,解碼階段的延遲在不同的批次大小中保持相對穩定。例如,隨著批次大小從 1 增加到 32,DeepSeek-R27.14-Distill-Qwen-29.52 B 的延遲範圍從 2 毫秒到 32 毫秒。
解碼階段的令牌率隨著批次大小的增加而提高,儘管不如預填充階段那麼顯著。當批次大小為 1 時,DeepSeek-R36-Distill-Qwen-37B 和 Qwen/QwQ-1B 的令牌速率約為每秒 32-32 個令牌,而 GEMMA-33.96-3B-IT 的令牌速率約為每秒 27 個令牌。當批次大小為 32 時,令牌率分別增加到每秒 1083.83、873.39 和 1084.89 個令牌。
批量大小 | DeepSeek-R1-Distill-Qwen-32B | GEMMA-3-27B-IT | Qwen/QwQ-32B | |||
---|---|---|---|---|---|---|
延遲(ms) | 代幣率 | 延遲(ms) | 代幣率 | 延遲(ms) | 代幣率 | |
1 | 27.24 | 36.71 | 29.45 | 33.96 | 27.24 | 36.71 |
2 | 27.14 | 73.70 | 30.80 | 64.93 | 27.14 | 73.69 |
4 | 27.50 | 145.46 | 31.33 | 127.65 | 27.47 | 145.62 |
8 | 27.91 | 286.61 | 32.54 | 245.83 | 27.90 | 286.78 |
16 | 28.31 | 565.07 | 34.71 | 460.92 | 28.44 | 562.56 |
32 | 29.52 | 1083.83 | 36.64 | 873.39 | 29.50 | 1084.89 |
這是預期的,因為預填階段計算整個輸入提示的初始隱藏狀態和鍵值緩存,這可以很好地飽和 GPU,因為可以同時運行大型批次操作。處理提示後,模型會產生新的標記,通常一次一個。在每個步驟中,模型都會採用前一個標記和快取的隱藏狀態並產生下一個標記。由於此階段實際上是逐個令牌進行處理的,因此批量大小通常很小,因此 GPU 經常未充分利用。
Procyon AI 電腦視覺基準
Procyon AI 電腦視覺基準測試使用真實世界的機器視覺任務,評估 CPU、GPU 和 AI 加速器的 AI 推理效能。它支援多種推理引擎,如 TensorRT、OpenVINO、SNPE、Windows ML 和 Core ML,提供有關效率、相容性和最佳化的洞察。
Procyon AI 電腦視覺基準測試結果也展示了強大的 AI 推理性能。該系統實現了較低的推理時間,其中MobileNet V3 為 20.64 毫秒,ResNet 50 為 22.42 毫秒。 Inception V4 和 DeepLab 分別運行時間為 65.23 毫秒和 41.37 毫秒,可有效處理更複雜的視覺工作負載。關鍵物體偵測模型 YOLO V3 的處理時間為 37.80 毫秒,非常適合即時 AI 應用。 REAL-ESRGAN 是一種計算密集型的超解析度模型,記錄了 1,159.22 毫秒,這使我們的整體 AI 電腦視覺分數達到 81。
AI計算機視覺(持續時間越短越好)(分數越高越好) | Dell PowerEdge R770(2 個英特爾至強 6787P | 2TB 記憶體) |
---|---|
MobileNet V3 平均推理時間 | 20.64毫秒 |
ResNet 50 平均推理時間 | 22.42毫秒 |
Inception V4 平均推理時間 | 65.23毫秒 |
DeepLab 平均推理時間 | 41.37毫秒 |
YOLO V3 平均推理時間 | 37.80毫秒 |
REAL-ESRGAN 平均推理時間 | 1,159.22毫秒 |
AI電腦視覺總分 | 81 |
Hammer DB TPROC-C
我們也使用 HammerDB TPROC-C 基準測試模擬了 11.4.4 個倉庫的 OLTP 工作負載,評估了四種流行的開源資料庫(MariaDB 8.4.4、MySQL 5.7.44、MySQL 17.2 和 PostgreSQL 500)的效能。
MariaDB 表現最佳,特別是在雙插槽配置中,它可以有效擴展並實現最高的交易吞吐量。 MySQL 8.4.4 比舊版 5.7.44 有顯著的改進,突顯了最近版本的增強功能。 PostgreSQL 17.2 提供了穩定的效能,但略微落後於 MariaDB 和 MySQL 8.4.4。 MariaDB 在單插槽上交付了 3.15 萬個 TPM,在雙插槽上交付了 5.8 萬個 TPM,在兩種情況下的表現都優於其他產品。
效能比較表(每分鐘事務數,TPM)
數據庫引擎 | 單插槽 TPM | 雙插槽 TPM |
---|---|---|
瑪麗亞數據庫11.4.4 | 3,150,000 | 5,800,000 |
MySQL 8.4.4 | 2,850,000 | 5,150,000 |
PostgreSQL 17.2 | 2,700,000 | 4,900,000 |
MySQL 5.7.44 | 2,300,000 | 4,250,000 |
儘管 R770 的硬體功能強大,每個 CPU 有 86 個核心(高優先權和低優先權核心混合),但當分佈在兩個插槽上時,所有資料庫均未表現出顯著的效能提升。這反映了開源資料庫對單插槽執行的共同偏好,因為其具有更好的核心局部性和更少的記憶體延遲。
鑑於這些結果,R770 更適合在虛擬化環境中執行多個資料庫實例,而不是擴展單一實例。該系統的架構非常適合支援高密度、混合資料庫工作負載,利用效能和效率核心在多個實例中提供一致的吞吐量。
7-ZIP
流行的 7-Zip 實用程式內建的記憶體基準測試可測量壓縮和解壓縮任務期間系統 CPU 和記憶體的效能,顯示系統處理資料密集型操作的能力。
在 7-Zip 基準測試中,當涉及壓縮任務時,戴爾系統的評級(266.425 GIPS)高於聯想系統(224.313 GIPS),而戴爾系統的 CPU 使用率略低。不過,聯想在解壓縮的表現優於戴爾,最終評級更高(288.457 GIPS 對 256.154 GIPS),CPU 使用率也略高。戴爾的整體評分略高(261.290 GIPS),顯示其在壓縮和解壓縮任務中的整體效率更高。
7-Zip 壓縮 & 減壓 | Dell PowerEdge R770(2 個英特爾至強 6787P | 2TB 記憶體) | 聯想 ThinkSystem SR630 V4(2 個英特爾至強 6780E | 512GB 記憶體) |
---|---|---|
壓縮 – 目前 CPU 使用率 | 5267% | 5064% |
壓縮 – 目前額定值/使用情況 | 5.061 吉普斯 | 4.341 吉普斯 |
壓縮 – 額定電流 | 266.591 吉普斯 | 219.840 吉普斯 |
壓縮 – 導致 CPU 使用率 | 5270% | 5156% |
壓縮 – 結果評級/使用情況 | 5.056 吉普斯 | 4.350 吉普斯 |
壓縮——結果評級 | 266.425 吉普斯 | 224.313 吉普斯 |
解壓縮 – 目前CPU使用率 | 5623% | 6184% |
減壓 – 電流額定值/使用情況 | 4.586 吉普斯 | 4.688 吉普斯 |
減壓 – 電流額定值 | 257.909 吉普斯 | 289.879 吉普斯 |
解壓縮 – 結果 CPU 使用率 | 5627% | 6205% |
解壓縮 – 結果評級/使用情況 | 4.553 吉普斯 | 4.649 吉普斯 |
解壓縮——結果評級 | 256.154 吉普斯 | 288.457 吉普斯 |
總計 – CPU 總使用率 | 5448% | 5681% |
總計 – 總評級/使用情況 | 4.804 吉普斯 | 4.500 吉普斯 |
總計 – 總評級 | 261.290 吉普斯 | 256.385 吉普斯 |
y 粉碎機
y-cruncher 是一款流行的基準測試和壓力測試應用程序,於 2009 年推出。在這個測試中越快越好。該軟體在測試高核心數平台和顯示單路和雙路平台之間的運算優勢方面表現出色。
Y-cruncher 基準測試結果顯示,採用 P 核心 CPU 的 Dell PowerEdge R770 與採用 E 核心 CPU 的 Lenovo ThinkSystem SR630 V4 之間存在明顯的效能差距,尤其是在資料集大小增加的情況下。這並不是討論哪個系統更好,而是更多地展示在這種工作負載下 CPU 類型的比較。
對於較小的計算,戴爾系統已經處於領先地位,在 1 秒內計算出圓周率的 2.753 億位數字,而聯想系統則花費了兩倍多的時間,達到 5.997 秒。隨著工作量的增加,差距也越來越大。在 10 億位數字時,戴爾用時 34.873 秒,還不到聯想 81.046 秒的一半。到了50億位大關,戴爾保持優勢,用時221.255秒,完成任務;聯想則用時476.826秒,戴爾快53%。
在 100 億位數字時,聯想無法完成測試,因為其目前配置為 512GB RAM。憑藉 2TB 的 RAM,戴爾高效處理了工作負載,僅用了 491.737 秒就完成。
Y-cruncher(持續時間越短越好) | Dell PowerEdge R770(2 個英特爾至強 6787P | 2TB 記憶體) | 聯想 ThinkSystem SR630 V4(2 個英特爾至強 6780E | 512GB 記憶體) |
---|---|---|
1億 | 2.753秒 | 5.997秒 |
2.5億 | 7.365秒 | 17.573秒 |
5億 | 16.223秒 | 37.793秒 |
10億 | 34.873秒 | 81.046秒 |
25億 | 99.324秒 | 220.025秒 |
50億 | 221.255秒 | 476.826秒 |
100億 | 491.737秒 |
攪拌機優化
一個開源 3D 建模應用程式。此基準測試是使用 Blender Benchmark 實用程式運行的。分數以每分鐘樣本數計算,越高越好。
Blender 基準測試結果顯示,Dell PowerEdge R770 的效能優勢明顯優於聯想 ThinkSystem SR630 V4,尤其是在 CPU 渲染方面。在 CPU Monster 場景中,戴爾的取樣率為每分鐘 1,706.002 個樣本,比聯想的每分鐘 19 個樣本領先 1,432.09%。 CPU Junkshop 測試進一步強調了這一差距,戴爾達到了每分鐘 1,169.370 個樣本,比聯想的每分鐘 914.75 個樣本高出 28%。同樣,戴爾在 CPU Classroom 測試中每分鐘的採樣率為 791.475 個,而聯想的採樣率為每分鐘 656.68 個,相差 20%。
聯想系統缺少 GPU 也意味著它無法參與基於 GPU 的渲染,其中戴爾的 NVIDIA L4 在 Monster 上的得分為 1,895.71 樣本/分鐘,在 Classroom 上的得分為 950.42 樣本/分鐘。
Blender CPU 基準測試 | Dell PowerEdge R770(2 個英特爾至強 6787P | 2TB 記憶體) | 聯想 ThinkSystem SR630 V4(2 個英特爾至強 6780E | 512GB 記憶體) |
---|---|---|
CPU 怪獸 (Blender 4.3) | 1,706.002 個樣本/分鐘 | 1432.09 個樣本/分鐘 |
CPU 垃圾店 (Blender 4.3) | 1,169.370 個樣本/分鐘 | 914.75 個樣本/分鐘 |
CPU 課堂 (Blender 4.3) | 791.475 個樣本/分鐘 | 656.68 個樣本/分鐘 |
GPU 怪獸 (Blender 4.3) | 1,895.712 個樣本/分鐘 | (無 GPU) |
GPU 垃圾店 (Blender 4.3) | 950.424 個樣本/分鐘 | (無 GPU) |
GPU 課堂 (Blender 4.3) | 968.432 個樣本/分鐘 | (無 GPU) |
Cinebench R23
Cinebench R23 基準測試工具透過使用 Cinema 3D 引擎渲染複雜的 4D 場景來評估系統的 CPU 效能。它測量單核心和多核心效能,提供 CPU 處理 3D 渲染任務的能力的全面視圖。
在 Cinebench R23 中,基準測試結果突顯了 Dell PowerEdge R770 和 Lenovo ThinkSystem SR630 V4 之間 CPU 效能的顯著差異,尤其是考慮到每個處理器的核心數量。聯想 ThinkSystem SR630 V4 配備 2 個 Intel Xeon 6780E 處理器(每個處理器 144 個核心),在 CPU 多核心測試中表現優於戴爾,得分為 99,266 分,而戴爾得分為 74,710 分。這一差異反映了聯想在多執行緒工作負載方面的優勢,因為與戴爾的 288x Intel Xeon 2P 處理器(每個處理器 6787 個核心)相比,聯想的核心數量更多(總共 86 個核心),這限制了其多核心效能。
在CPU單核心測試中,戴爾表現較佳,得分為1,272分,超過聯想的894分,凸顯戴爾雖然核心數較少,但單線程效率卻更勝一籌。
Cinebench R23 | Dell PowerEdge R770(2 個英特爾至強 6787P | 2TB 記憶體) | 聯想 ThinkSystem SR630 V4(2 個英特爾至強 6780E | 512GB 記憶體) |
---|---|---|
CPU 多核 | 74,710點 | 99,266點 |
CPU單核 | 1,272點 | 894點 |
MP比率 | 58.74點¯x | 111.00點¯x |
Cinebench 2024
Cinebench 2024 透過新增 GPU 效能評估擴展了 R23 的基準測試功能。它繼續測試 CPU 效能,但也包括衡量 GPU 處理渲染任務能力的測試。
在這次更新的基準測試中,Dell PowerEdge R770 的 GPU 效能得分為 12,996 分,突顯了其處理 GPU 加速渲染任務的能力。 Lenovo ThinkSystem SR630 V4 沒有專用 GPU,因此沒有記錄 GPU 分數。
在 CPU 多核心測試中,聯想得分為 2,884 分,略高於戴爾的 2,831 分,顯示聯想在多核心效能方面略有優勢。對於 CPU 單核心效能,戴爾的表現優於聯想,得分為 71 分,而聯想得分為 53 分,這表明儘管戴爾的核心數較少,但單核心效能更高。
Cinebench R24 | Dell PowerEdge R770(2 個英特爾至強 6787P | 2TB 記憶體) | 聯想 ThinkSystem SR630 V4(2 個英特爾至強 6780E | 512GB 記憶體) |
---|---|---|
GPU分數 | 12,996點 | |
CPU 多核 | 2,831點 | 2,884點 |
CPU單核 | 71點 | 53點 |
MP比率 | 39.77點¯x | 54.43點¯x |
Geekbench 6
Geekbench 6 是衡量整體系統效能的跨平台基準測試。 Geekbench 瀏覽器可讓您將任何系統與其進行比較。
Geekbench 6 基準測試結果顯示戴爾 PowerEdge R770 和聯想 ThinkSystem SR630 V4 之間有明顯的效能差異。在 CPU 單核心測試中,戴爾以 1,797 的得分優於聯想,而聯想的得分為 1,173,顯示戴爾的單核心效能提高了 53%。
在 CPU 多核心測試中,戴爾再次以 15,880 領先,而聯想得分為 13,868,戴爾在多核心效能方面領先 14%。這表明戴爾的英特爾至強 6787P 處理器提供了卓越的整體運算能力,尤其是在受益於多核心的任務中。
GPU OpenCL 測試進一步凸顯了戴爾的優勢,得益於 NVIDIA L148,730 GPU,得分達到了 4。
Geekbench 6(越高越好) | Dell PowerEdge R770(2 個英特爾至強 6787P | 2TB 記憶體) | 聯想 ThinkSystem SR630 V4(2 個英特爾至強 6780E | 512GB 記憶體) |
---|---|---|
CPU單核 | 1,797 | 1,173 |
CPU 多核 | 15,880 | 13,868 |
GPU OpenCL 分數 | 148,730 | (無 GPU) |
Blackmagic RAW 速度測試
Blackmagic RAW Speed Test 是一款效能基準測試工具,旨在測量系統使用 Blackmagic RAW 編解碼器處理影片播放和編輯的能力。它評估系統解碼和播放高解析度視訊檔案的能力,為基於 CPU 和 GPU 的處理提供幀速率。
在基於 CPU 的測試中,Dell PowerEdge R770 實現了 141 FPS,超過了得分 630 FPS 的聯想 ThinkSystem SR4 V120。這表明戴爾系統比聯想系統更有效率地處理基於 CPU 的視訊處理。對於基於 GPU 的測試,由於 NVIDIA GPU,Dell PowerEdge R770 獲得了 157 FPS。
Blackmagic RAW速度測試(越高越好) | Dell PowerEdge R770(2 個英特爾至強 6787P | 2TB 記憶體) | 聯想 ThinkSystem SR630 V4(2 個英特爾至強 6780E | 512GB 記憶體) |
---|---|---|
幀率CPU | FPS 141 | FPS 120 |
射擊遊戲 | FPS 157 | 0 FPS(無 GPU) |
Blackmagic磁盤速度測試
Blackmagic 磁碟速度測試對磁碟機的讀寫速度進行基準測試,以評估其效能,尤其是對於影片編輯任務的效能。它可以幫助用戶確保他們的儲存速度足夠快,以適應高解析度內容,例如 4K 或 8K 影片。
在 Blackmagic 速度測試中,搭配鏡像 SK 海力士 770GB Dell NVMe 的 Dell PowerEdge R480 boss 卡實現了 3,010.3 MB/s 的讀取速度和 976.3 MB/s 的寫入速度。
結論
Dell PowerEdge R770 確實令我們興奮,因為它採用了開放運算專案的資料中心模組化硬體系統標準和尖端硬體。 OCP DC MHS 的整合帶來了許多好處,包括增強的模組化、改進的可維護性以及透過提高標準化可能降低的成本。這種設計理念體現在系統的各個方面,從將 iDRAC 作為 OCP DC-SCM 實施到連接埠。
R770 還擁有令人印象深刻的儲存能力,在單一 40U 機箱中支援多達 3 個 E2.S 驅動器,使其成為儲存密集型工作負載的理想解決方案。此外,該伺服器支援各種配置,包括前置 I/O 冷通道可存取配置,進一步增強了其靈活性,為不同的資料中心佈局和可服務性要求提供了更大的靈活性。
R6 支援多種 GPU 和英特爾至強 770 效能核心 CPU,是一款真正強大且多功能的伺服器平台,非常適合滿足現代資料中心的需求。其先進的硬體、模組化設計和強大的安全功能使 R770 成為希望部署 AI、HPC 和傳統企業工作負載的組織的理想選擇。
參與 StorageReview
電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱