ホーム Enterprise Dell PowerEdge R770 レビュー: モジュール式、パワフル、AI 対応

Dell PowerEdge R770 レビュー: モジュール式、パワフル、AI 対応

by ディビヤンシュ・ジェイン

Dell PowerEdge R770 レビュー: Intel Xeon 6 CPU、OCP DC-MHS モジュール性、優れたパフォーマンス、柔軟性、高密度 2U シャーシでの AI 対応。

Dell の PowerEdge R7x0 シリーズ サーバーは、優れた製造品質、考え抜かれた設計、パフォーマンス、密度、汎用性の高い 2U フォーム ファクターの信頼性で知られ、長年データ センターの基盤となってきました。これらのサーバーは、変化する需要を満たすために常に進化してきました。そして今、Dell PowerEdge R770 の導入により、このシリーズは大きく前進しました。

TR770 は、Xeon 6 および 6500 P および E コア プロセッサを搭載した、Intel の新しい Xeon 6700 プロセッサ ファミリのデビューです。これは、Dell がメインストリーム サーバー ラインで OCP データ センター モジュラー ハードウェア システム (DC MHS) 標準を初めて完全に採用したことを示しています。これら XNUMX つの変更により、機能と設計哲学の大幅な進化が期待されます。

Dell PowerEdge R770 ヒーローベゼル

現代のデータセンターの需要を満たす

R770 は、データ センターが増大するプレッシャーに直面しているときに発売されました。ワークロードはますます多様化し、要求が厳しくなっています。データの絶え間ない増加により、堅牢な分析とデータベースの必要性が高まっています。複雑なモデルのトレーニングからリアルタイム推論の展開まで、人工知能はもはやニッチなアプリケーションではなく、かなりの計算能力と特殊な加速を必要とする中核的なビジネス ドライバーになっています。

同時に、エネルギー効率と総所有コストの最適化にも重点が置かれています。さらに、業界ではイノベーションを促進し、相互運用性を高め、ベンダー ロックインを減らすために、オープン スタンダードへの注目が高まっています。新しいプロセッサ オプションと OCP DC MHS の採用により、R770 はこれらの課題に正面から取り組むように設計されています。

Intel Xeon 6 Pコアプロセッサ

R770 プロセッサは、6 および 6700 シリーズを含む Intel Xeon 6500 シリーズ プロセッサを採用し、ソケット E2 (LGA4710-2) プラットフォーム上に構築されたパフォーマンス コアと効率コアを組み込んでいます。このレビューでは、特に P シリーズ SKU に焦点を当てています。

Dell PowerEdge R770 CPUブロック

Intel は、I/O タイルと 86 つまたは 48 つのコンピューティング タイルを組み合わせたタイルベースの設計を使用してこれらのプロセッサを構築しています。これにより、シリーズ内でのスケーラビリティが実現され、16 つのコンピューティング タイルを使用した最大 XNUMX 個の P コア (XCC) から、XNUMX つのコンピューティング タイルを使用した最小 XNUMX 個の P コア (HCC) または XNUMX 個の P コア (LCC) までの構成が可能になります。

前世代の Sapphire および Emerald Rapids プロセッサと比較した場合、これらのプロセッサの主な差別化要因は、すべての Xeon 6 プロセッサで組み込みアクセラレータが普遍的に利用できることです。これには、暗号化と圧縮のための Intel QuickAssist テクノロジー、データ移動のための Intel Data Streaming Accelerator、データベースと分析の高速化のための Intel In-Memory Analytics Accelerator、およびネットワーク処理効率のための Intel Dynamic Load Balancer が含まれます。 

メモリと I/O 帯域幅も大幅にアップグレードされています。Xeon 6700/6500 P コア シリーズは、8 チャネル DDR5 メモリをサポートしています。また、最大 8,800 MT/s の速度を実現する Multiplexed Rank DIMM (MRDIMM) への道も開きます。I/O 面では、これらのプロセッサは PCIe 5.0 と CXL 2.0 をサポートしています。デュアル ソケット構成では、プラットフォームはソケットあたり最大 88 の PCIe レーン (合計 176 レーン) を提供できます。 

また、P コアと E コアの差別化にもかかわらず、Xeon 6 ファミリーは命令セット、BIOS、ドライバー、OS/アプリケーション サポート、および RAS 機能の一貫性を維持し、さまざまな導入タイプ間での統合と管理を簡素化します。P コア バリアントは、コアあたりのパフォーマンス、AI アクセラレーション、高メモリ帯域幅、および大量の I/O が最も重要となるワークロードを対象としています。要求の厳しいデータベース、HPC シミュレーション、高度な分析、および幅広い AI アプリケーションが考えられます。

Dell PowerEdge R770の仕様

Dell PowerEdge R770 リアIO

製品仕様 デル PowerEdge R770
プロセッサ プロセッサあたり最大 6 個の E コアまたは 144 個の P コアを備えた 86 つの Intel Xeon XNUMX プロセッサ
メモリ 32 個の DDR5 DIMM スロット、最大 8 TB の RDIMM をサポート、最大速度 6400 MT/s、レジスタ付き ECC DDR5 DIMM のみをサポート
ストレージコントローラ 内部ブート: ブート最適化ストレージ サブシステム (BOSS-N1 DC-MHS): HWRAID 1、2 x M.2 NVMe SSD または M.2 インターポーザ ボード (DC-MHS): 2 x M.2 NVMe SSD または USB、内部コントローラ: フロント PERC H965i、フロント PERC H975i、フロント PERC H365i
フロントベイとリアベイ
  • バックプレーン構成なし
  • 最大8台のEDSFF E3.S Gen5 NVMe(SSD)最大122.88TBもFIO構成で提供されます。
  • 最大16台のEDSFF E3.S Gen5 NVMe(SSD)最大245.76TBもFIO構成で提供されます。
  • 最大 32 x EDSFF E3.S Gen5 NVMe (SSD) 最大 489.6 TB
  • 最大 8 x 2.5 インチ SAS/SATA/NVMe (SSD) 最大 122.88 TB
  • 最大 8 x 2.5 インチ ユニバーサル最大 245.6 TB、最大 16 x 2.5 インチ SAS/SATA (SSD) 最大 61.44 TB
  • 最大24 x 2.5インチSAS/SATA(SSD)最大92.16 TB、
  • 最大 16 x 2.5 インチ SAS/SATA (SSD) + 8 x 2.5 インチ NVME) 最大 92.16 TB
  • 最大 40 x EDSFF E3.S Gen5 NVMe (SSD) 最大 614.4 TB
  • 背面に最大 4 台の EDSFF E3.S Gen5 NVMe (SSD) 最大 61.2 TB
ホットスワップ電源
  • 800 W プラチナ 100〜240 VAC または 240 VDC
  • 1100 W プラチナ 100〜240 VAC または 240 VDC
  • 1500 W チタン 100〜240 VAC または 240 VDC
  • 1100 W チタン 100〜240 VAC または 240 VDC
  • 3200 W チタン 200〜240 VAC または 240 VDC
  • 800 W チタン 100〜240 VAC または 240 VDC
  • 3200 W 277 VACおよび336 HVDCチタン
  • 1400 W -48VDC 60mm
  • 1500 W 277 VACおよび336 HVDCチタン
  • 2400 W チタン 100〜240 VAC または 240 VDC 1800 W HLAC チタン 200〜240 VAC または 240 VDC
冷却オプション 空冷と直接液体冷却(DLC はラック ソリューションであり、動作にはラック マニホールドと冷却分配ユニット(CDU)が必要です)
ハイパフォーマンス シルバー (HPR SLVR) ファン/ハイパフォーマンス ゴールド (HPR GOLD) ファン、最大 6 個のホットスワップ可能なファン
寸法および重量 高さ – 86.8 mm (3.42 インチ)、幅 – 482 mm (18.97 インチ)、重量 – 28.53 kg (62.89 ポンド)、奥行き (背面 I/O 構成の場合) – ベゼル付きで 802.40 mm (31.59 インチ)、ベゼルなしで 801.51 mm (31.56 インチ)、奥行き (前面 I/O 構成の場合) – ベゼルなしで 814.52 mm (32.07 インチ)
フォームファクター 2Uラックサーバー
組込み管理 iDRAC、iDRAC Direct、Redfish を使用した iDRAC RESTful API、RACADM CLI、iDRAC サービス モジュール (iSM)、NativeEdge エンドポイント、NativeEdge Orchestrator
ベゼル オプションのセキュリティベゼル
セキュリティ 暗号化署名されたファームウェア、保存データの暗号化 (ローカルまたは外部キー管理による SED)、セキュア ブート、セキュリティ保護されたコンポーネント検証 (ハードウェア整合性チェック)、シリコン ルート オブ トラスト、システム ロックダウン、システム ロックダウン (iDRAC10 Enterprise または Datacenter が必要)、シャーシ侵入検知、TPM 2.0 FIPS、CC-TCG 認定
ネットワークオプション
  • 4 x OCP NIC 3.0 カード (オプション) および 1GbE、10GbE、25GbE、100GbE、400GbE
  • スロット 4 1 x 8 または 1 x 16 Gen5 OCP 3.0
  • スロット 10 1 x 8 または 1 x 16 OCP 3.0、スロット 34 1 x 16 Gen5 OCP 3.0 (フロント ライザー)
  • スロット 38 1 x 16 Gen 5 OCP 3.0 フロントライザー
  • ボス スロット 34 1 x 4 ボス、スロット 6 1 x 4 ボス
GPUオプション 最大 6 x 75 W FHHL または最大 2 x 350 W DWFL
ポート フロント ポート: USB 1 タイプ C ポート x 2.0、USB 1 タイプ A ポート x 2.0 (オプション)、Mini-DisplayPort x 1 (オプション)、DB1 シリアル x 9 (フロント I/O 構成)、iDRAC 管理用の専用イーサネット ポート x 1。リア ポート: iDRAC 管理用の専用イーサネット ポート x 1、VGA x 1、USB 2 タイプ A ポート x 3.1。内部ポート: USB 1 タイプ A ポート x 3.1。
PCIe
  • 最大 16 つの PCIe スロット (xXNUMX コネクタ)
  • スロット 31 1 x 16 Gen5 フルハイト – フロントライザーのハーフレングスまたはフルレングス
  • スロット 36 1 x 16 Gen5 フルハイト – フロントライザーのハーフレングス
  • 最大 8 つの PCIe スロット (x16 および xXNUMX コネクタ)
  • スロット 1 1 x 8 Gen5 フルハイト – ハーフレングス
  • スロット 2 1 x 16 Gen5 デュアル幅 フルレングスまたは 1 x 8 Gen5 フルハイト – ハーフレングス
  • スロット 3 1 x 16 Gen5 フルハイト – ハーフレングスまたは 1 x 16 Gen5 ロープロファイル
  • スロット 4 1 x 16 Gen5 フルハイト – ハーフレングスまたは 1 x 8 Gen5 フルハイト – ハーフレングスまたは 1 x 8 または 1 x 16 OCP 3.0
  • スロット 5 2 x 16 Gen5 フルハイト – ハーフレングスまたは 1 x 8 Gen5 フルハイト – ハーフレングス
  • スロット 7 1 x 16 Gen5 フルハイト – ハーフレングスまたは 1 x 16 Gen5 デュアル幅 フルレングスまたは 1 x 8 Gen5 フルハイト – ハーフレングス、スロット 8 1 x 16 Gen5 フルハイト – ハーフレングスまたは 1 x 8 Gen5 フルハイト – ハーフレングス
  • スロット 9 1 x 16 Gen5 フルハイト - ハーフレングスまたは 1 x 8 Gen5 フルハイト - ハーフレングスまたは 1 x 16 ロープロファイル - ハーフレングス
オペレーティングシステムとハイパーバイザー Canonical Ubuntu Server LTS、Microsoft Windows Server with Hyper-V、Red Hat Enterprise Linux、SUSE Linux Enterprise Server、VMware with vSphere

Dell PowerEdge R770 が OCP DC MHS でモジュール化を実現

サーバー/DC-MHSからのソース – OpenComputer

Dell PowerEdge R770 は、Open Compute Project のデータセンター モジュラー ハードウェア システム (OCP DC MHS) 標準を採用し、物理設計とコンポーネント アーキテクチャに顕著な進歩と柔軟性をもたらします。

Dell PowerEdge R770 SSD 背面図

R7x0 シリーズの伝統を引き継ぐ R770 は、多様な導入ニーズに応えるために、幅広い構成オプションを提供しています。このラインで初めて採用された重要な点は、従来のリア I/O 構成とフロント I/O コールドアイル アクセス可能構成を選択できることです。これにより、さまざまなデータセンター レイアウトや保守要件に柔軟に対応できます。ストレージ オプションも同様に多用途で、ローカル ストレージが最小限またはまったくないコンピューティング重視のノードから、ストレージ中心のワークロード向けに驚異的な 40 台の E3.S ドライブをサポートする高密度構成まで、多岐にわたります。

R770 は、特に AI と HPC 向けの高速コンピューティングの需要の高まりに対応するために、強力な拡張機能を誇ります。シャーシとライザーの構成に応じて、サーバーは最大 5 枚の Gen 16 x3.0 フルハイト、フルレングス (FHFL) PCIe カードを搭載できます。さらに、8 つのデュアル幅 GPU のインストールをサポートしているため、幅広いタスクに対応できるプラットフォームとなっています。OCP 16 メザニン スロットによってネットワークの柔軟性が提供され、構成に応じて xXNUMX または xXNUMX カードのいずれかがサポートされます。

Dell は、保守性と信頼性の向上を目的とした設計の改良もいくつか実施しました。代表的な例は、Boot Optimized Storage Solution (BOSS) カードの進化です。以前はケーブルで接続され、PCIe ライザーに組み込まれていた R770 の BOSS コントローラーは、マザーボードと直接インターフェイスする OCP 標準カードとして実装され、ケーブル配線の複雑さが解消されました。この新しい BOSS コントローラーは、より高速な NVMe M.2 ドライブも備え、ヒートシンクを組み込んで、ブート デバイスの最適な動作温度とパフォーマンスを確保します。技術者にとってもう XNUMX つの目立たないが実用的な機能強化は、NVRAM のクリアなどの機能で従来のジャンパーからよりユーザー フレンドリな DIP スイッチに移行したことです。

最も重大なアーキテクチャ上の変化は、OCP DC MHS 標準の完全な採用です。Dell は、特に OCP 3.0 ネットワーク アダプタ スロットを採用することで、以前の世代から OCP 要素の組み込みを開始しました。R770 では、これをさらに進めています。現在、主要コンポーネントは OCP 仕様に準拠しており、これには、ライザー スロット (現在は M-XIO コネクタ) などの部品を含む、一般にマザーボードと呼ばれるホスト プロセッサ モジュール (HPM) も含まれます。 M-XIO コネクタは、ライザー カード用の標準化されたインターフェイスを提供し、柔軟性とアップグレード性を高めます。iDRAC は、OCP DC-SCM (サーバー コントロール モジュール) としても実装されています。

さらに、R770 では、GPU やバックプレーンなどの周辺機器接続用の新しい PICPWR 電源コネクタが導入されています。このコネクタは重要な追加機能であり、電力供給を簡素化し、インライン電源監視を組み込んでいます。

この緊密な統合により、さまざまなサブシステム間でインターフェイスとフォーム ファクターが標準化されます。Dell は、互換性とサポートを保証するためにユーザーは検証済みのコンポーネントを使用する必要があることを強調していますが、基盤となる標準化により、多くのパーツが本質的にユーザーにとって保守しやすくなり、将来的には準拠システム間で交換可能になる可能性があります。

管理とiDRAC

Dell PowerEdge R770 は、すでに豊富な機能を備え、好評を得ている iDRAC 9 をベースに、次世代の iDRAC 10 を搭載しています。この iDRAC 10 は、データセンター セキュア コントロール モジュール (DC-SCM) とのシームレスな統合により、システム管理を強化します。この統合により、ファームウェアの更新と構成管理が合理化され、データセンター全体で一貫性と拡張性に優れた運用が保証されます。iDRAC XNUMX は高度な自動化と監視機能もサポートしており、IT 管理者はパフォーマンスや信頼性を損なうことなく、大規模な導入を効率的に管理できます。.

セキュリティは R770 の管理機能の要であり、デルは堅牢な起動前および起動時の検証メカニズムを実装しています。シリコンベースのルート オブ トラスト テクノロジーを活用した iDRAC 10 では、BIOS や iDRAC を含むすべてのファームウェアが実行前に暗号化されて検証されます。この不変のハードウェア ベースのセキュリティ対策は、マルウェアによる改ざんやサプライ チェーン攻撃から保護し、システム操作の安全な基盤を提供します。さらに、R770 には量子耐性ブート プロトコルが組み込まれており、新たな暗号化の脅威を軽減し、重要なインフラストラクチャを保護する役割をさらに強化しています。.

Dell のサプライ チェーン セキュリティへの取り組みは、包括的な信頼チェーン認証プロセスを採用した R770 の設計に表れています。各ハードウェア コンポーネントは、製造時に埋め込まれた暗号署名を使用して厳密な検証を受けます。このプロセスにより、承認されたファームウェアとコンポーネントのみが使用されるようになり、不正な変更や偽造部品に関連するリスクが軽減されます。

AI工場の構成要素

R770 は、さまざまな GPU およびシャーシ構成で注文できるため、幅広い AI ワークロードに対応する多用途のプラットフォームとなっています。この柔軟性と堅牢なストレージおよびネットワーク機能により、AI ファクトリーに AI ソリューションを導入する組織にとって魅力的な選択肢となっています。AI ファクトリーとは、大規模な AI モデルの作成、トレーニング、導入に必要なインフラストラクチャとツールを指します。これらのファクトリーは、大規模なデータセットを効率的に処理するために必要な計算能力とデータ パイプラインを提供するため、自律走行車やロボットなどの高度なシステムの開発に不可欠です。

自律走行車やロボット システムの開発には、現実世界のシナリオを反映した広範なトレーニング データが必要です。NVIDIA の Cosmos NIM はこの分野における大きな進歩であり、開発者に World Foundational Models などの物理 AI システムの作成と展開を加速する強力なツールキットを提供します。

世界基盤モデルを理解する

ワールドファンデーションモデル(WFM)は、現実世界の環境をシミュレートし、さまざまな入力に基づいて正確な結果を予測する洗練されたニューラルネットワークです。特定のタスクに焦点を当てた従来のAIモデルとは異なり、WFMは物理特性や空間特性など、物理世界のダイナミクスを理解します。. 動き、力、空間関係を正確に表現しながら、テキストプロンプト、画像、またはその他の入力データからビデオを生成できます。

NVIDIA Cosmos NIM: 世界の基礎モデルへの足がかり

NVIDIAのCosmos NIMは、世界基礎モデルを実現するための重要なステップです。組織やAIラボは、合成トレーニングデータを生成し、これらのAIモデルのトレーニングに必要なデータを効率的にスケーリングできます。 コスモス予測 モデルは、テキストまたはビデオのプロンプトから世界の状態を生成し、フレームを予測して連続的な動きを合成する汎用モデルです。

これらは、私たちの研究室のたった 1 枚の画像から Cosmos で得られた興味深い結果です。完璧ではありませんが、たった 1 枚の画像から得られた結果は非常に印象的です。

R770 は、NVIDIA H100 などの高性能 GPU をサポートし、堅牢なストレージとネットワーク機能を備えているため、AI ソリューションの導入を検討している組織にとって魅力的な選択肢となります。

R770 の機能を活用することで、組織は Cosmos NIM などの AI モデルを効率的にトレーニングおよび展開し、自律走行車やロボット システムの開発を加速できます。R770 のパフォーマンスと拡張性により、AI モデルのトレーニングに必要な大量のデータを処理するのに最適なプラットフォームとなり、その汎用性により、幅広い AI ワークロードをサポートできます。

GPUダイレクトストレージ

GPU ダイレクト ストレージは、CPU とシステム メモリをバイパスして、ストレージ デバイスと GPU 間で直接データを転送できるテクノロジです。従来のデータ転送では、データはストレージから CPU のメモリに読み込まれ、その後 GPU のメモリにコピーされます。このプロセスには複数のデータ コピーが含まれるため、レイテンシが増加し、パフォーマンスが低下します。CPU はボトルネックとして機能し、ストレージと GPU 間のデータ転送を処理する必要があります。GDS は、ストレージ デバイスが GPU のメモリとの間で直接データを転送できるようにすることで、このボトルネックを解消します。

16 台のドライブで構成されるストレージ システムで GDSIO ワークロード分析を実施し、使用するドライブの数を段階的に増やして、ストレージのパフォーマンスと PCIe Gen 5 GPU を飽和させる能力を把握しました。

GDSIO 読み取りグラフは、KIOXIA CD8P SSD の数を増やすと、r770 の総合および平均読み取りスループットにどのような影響があるかを示しています。最初、ドライブの数が 50.2 から 5 に増えると、総合読み取りスループットは急速に増加し、約 16 GiB/秒に達します。これは、システムがデータ ロード用に 4 台から XNUMX 台のドライブだけで PCIe Gen XNUMX xXNUMX を飽和させることができることを示しています。XNUMX 台を超えると、総合スループットは横ばいになり、ドライブを追加しても大幅に向上しないことがわかります。一方、ドライブあたりの平均読み取りスループットは XNUMX 台までは安定していますが、ドライブを追加すると低下します。ドライブあたりのパフォーマンスが低下するのは、より多くのドライブが利用可能な PCIe バス帯域幅を共有し、個々のドライブの読み取りが減少するためです。

対照的に、これらのドライブの書き込みパフォーマンスは、読み取りパフォーマンスよりもはるかに低いです。 16GiB/s の書き込み帯域幅を達成するには、46.7 台のドライブすべてが必要でしたが、ドライブの平均書き込みはほぼ一定でした。 これらは KIOXIA CD8 ポートフォリオの中で書き込みパフォーマンスが低い容量であるため、大容量バージョンまたは他の PCIe Gen5 SSD の方が優れています。

Dell PowerEdge R770 のベンチマーク

ベンチマークについてですが、R770 は Dell の主力メインライン システムであり、さまざまな環境で導入されます。そこで、このプラットフォームがさまざまな環境でどのように機能するかを把握するために、このプラットフォームの包括的なベンチマーク セットを実行しました。Lenovo ThinkSystem SR630 V4 をいくつかのテストで比較し、最上位の E コア CPU と P コア CPU の違いを示しました。

システム構成
  • CPU: 2x Intel Xeon 6787P (各 86 コア)
  • RAM: 32x Micron 64 GB デュアルランク DDR5 6400 MT/s 合計メモリ: 2TB
  • 電源: デルタ 2W x 1500
  • GPU: TGIベンチマーク用に1x NVIDIA H100、残りのテスト用に1x NVIDIA L4
  • NIC: DELL BRCM 4P 25G SFP 57504S OCP NIC
  • ボスカード: BOSS-N1 DC-MHS ディスク 0 および 1 SK hynix 480 GB Dell NVMe ISE PE9010 RI M.2 480GB
  • ディスク: バックプレーン 0 の 5-1: Samsung 6.4 TB、Dell NVMe PM1745 MU E3.S 6.4TB

AI ワークロードのパフォーマンス

テキスト生成推論ベンチマーク

Text Generation Inference (TGI) は、Hugging Face が開発した高性能 LLM 推論サーバーです。LLM の展開と使用を最適化するように設計されており、実稼働環境に最適です。TGI はさまざまなオープンソース LLM をサポートし、テンソル並列処理、トークン ストリーミング、連続バッチ処理などの機能を提供し、パフォーマンスと効率を向上させます。

テキスト生成推論 – QwQ 32B

TGI のベンチマーク機能は、さまざまな構成とワークロードでのパフォーマンスを評価するために使用されます。TGI のベンチマーク機能は、実稼働環境で LLM を提供する複雑さを考慮しているため、実際のパフォーマンスをより正確に表します。

LLM を使用したテキスト生成には、プレフィル ステージとデコード ステージという 2 つの主要なステージがあります。プレフィル ステージは最初のステップで、LLM は入力プロンプトを処理して必要な中間表現を生成します。このステージは、モデルを 1 回通過して入力プロンプト全体を処理する必要があるため、計算負荷が高くなります。

事前入力段階では、入力プロンプトがトークン化され、LLM が処理できる形式に変換されます。次に、LLM は入力トークンに関する情報を保存する KV キャッシュを計算します。KV キャッシュは、出力トークンの生成を容易にする重要なデータ構造です。

対照的に、デコード ステージは自己回帰プロセスであり、LLM はプレフィル ステージで生成された中間表現に基づいて、出力トークンを 1 つずつ生成します。デコード ステージは、プレフィル ステージで生成された KV キャッシュに大きく依存しており、一貫性がありコンテキストに適した出力トークンを生成するために必要なコンテキストを提供します。

事前入力段階

バッチ サイズが 1 から 32 に増加すると、1 つのモデルすべてでレイテンシが増加します。DeepSeek-R32-Distill-Qwen-29.97 B のレイテンシは、バッチ サイズ 1 の 76.95 ミリ秒から、バッチ サイズ 32 の 3 ミリ秒に増加します。同様に、GEMMA-27-32B-IT と Qwen/QwQ-51.84B のレイテンシは、それぞれ 29.90 ミリ秒と 79.58 ミリ秒から、76.30 ミリ秒と XNUMX ミリ秒に増加します。

対照的に、トークン レートはバッチ サイズが大きくなるにつれて大幅に向上します。バッチ サイズが 1 の場合、192.95 つのモデルのトークン レートは 334.46 秒あたり 32 ~ 4158.67 トークンの範囲です。バッチ サイズが 4021.40 の場合、DeepSeek-R4194.13-Distill-Qwen-1B、GEMMA-32-3B-IT、Qwen/QwQ-27B ではそれぞれ 32 秒あたり XNUMX、XNUMX、XNUMX トークンに急上昇します。

LLM プレフィル ステージのパフォーマンス: レイテンシ (ms) とトークン レート (トークン/秒)
バッチサイズ ディープシーク-R1-蒸留-Qwen-32B ジェマ-3-27B-IT クウェン/QwQ-32B
待ち時間(ミリ秒) トークンレート 待ち時間(ミリ秒) トークンレート 待ち時間(ミリ秒) トークンレート
1 29.97 333.64 51.84 192.95 29.90 334.46
2 30.21 662.09 52.55 380.61 29.95 667.80
4 32.40 1234.72 52.62 760.12 32.12 1245.47
8 36.98 2163.46 52.66 1519.19 36.69 2180.66
16 51.63 3125.50 60.96 2624.64 51.29 3147.61
32 76.95 4158.67 79.58 4021.40 76.30 4194.13
デコードステージ

プレフィル ステージとは異なり、デコード ステージ中のレイテンシは、さまざまなバッチ サイズにわたって比較的安定しています。たとえば、DeepSeek-R1-Distill-Qwen-32 B のレイテンシは、バッチ サイズが 27.14 から 29.52 に増加すると、2 ミリ秒から 32 ミリ秒の範囲になります。

デコード ステージ中のトークン レートは、バッチ サイズが大きくなるにつれて向上しますが、プレフィル ステージ中ほど劇的ではありません。バッチ サイズが 1 の場合、トークン レートは、DeepSeek-R36-Distill-Qwen-37B および Qwen/QwQ-1B では 32 秒あたり約 32 ~ 33.96 トークン、GEMMA-3-27B-IT では 32 秒あたり 1083.83 トークンです。バッチ サイズが 873.39 の場合、トークン レートはそれぞれ 1084.89 秒あたり XNUMX、XNUMX、XNUMX トークンに増加します。

LLM デコード (トークン) パフォーマンス: レイテンシ (ms) とトークン レート (トークン/秒)
バッチサイズ ディープシーク-R1-蒸留-Qwen-32B ジェマ-3-27B-IT クウェン/QwQ-32B
待ち時間(ミリ秒) トークンレート 待ち時間(ミリ秒) トークンレート 待ち時間(ミリ秒) トークンレート
1 27.24 36.71 29.45 33.96 27.24 36.71
2 27.14 73.70 30.80 64.93 27.14 73.69
4 27.50 145.46 31.33 127.65 27.47 145.62
8 27.91 286.61 32.54 245.83 27.90 286.78
16 28.31 565.07 34.71 460.92 28.44 562.56
32 29.52 1083.83 36.64 873.39 29.50 1084.89

これは予想通りです。なぜなら、事前入力ステージでは、入力プロンプト全体の初期の隠し状態とキー値キャッシュが計算されるため、大規模なバッチ処理を同時に実行できるため、GPU が飽和状態になる可能性があるからです。プロンプトを処理した後、モデルは新しいトークンを通常 1 つずつ生成します。各ステップで、モデルは前のトークンとキャッシュされた隠し状態を取得し、次のトークンを生成します。このステージはトークンごとに効果的に処理されるため、バッチ サイズが小さいことが多く、GPU が十分に活用されないことがよくあります。

Procyon AI コンピュータビジョンベンチマーク

Procyon AI Computer Vision Benchmark は、実際のマシン ビジョン タスクを使用して、CPU、GPU、AI アクセラレータ全体の AI 推論パフォーマンスを評価します。TensorRT、OpenVINO、SNPE、Windows ML、Core ML などの複数の推論エンジンをサポートし、効率、互換性、最適化に関する洞察を提供します。

Procyon AI Computer Vision Benchmark の結果も、強力な AI 推論パフォーマンスを示しています。システムは推論時間を短縮し、MobileNet V3 は 20.64 ミリ秒、ResNet 50 は 22.42 ミリ秒でした。Inception V4 と DeepLab はそれぞれ 65.23 ミリ秒と 41.37 ミリ秒で実行され、より複雑なビジョン ワークロードを効果的に処理しました。主要なオブジェクト検出モデルである YOLO V3 は 37.80 ミリ秒で処理され、リアルタイム AI アプリケーションに適しています。計算集約型の超解像モデルである REAL-ESRGAN は 1,159.22 ミリ秒を記録し、AI Computer Vision の総合スコアは 81 となりました。

AI コンピュータービジョン (持続時間が短いほど良い) (スコアが高いほど良い) Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB RAM)
MobileNet V3 の平均推論時間 20.64ミリ秒
ResNet 50 の平均推論時間 22.42ミリ秒
Inception V4 の平均推論時間 65.23ミリ秒
DeepLab 平均推論時間 41.37ミリ秒
YOLO V3 の平均推論時間 37.80ミリ秒
REAL-ESRGAN 平均推論時間 1,159.22ミリ秒
AI コンピュータビジョン総合スコア 81

ハンマーDB TPROC-C

また、HammerDB TPROC-C ベンチマークを使用して 11.4.4 のウェアハウスにわたる OLTP ワークロードをシミュレートし、8.4.4 つの一般的なオープンソース データベース (MariaDB 5.7.44、MySQL 17.2、MySQL 500、PostgreSQL XNUMX) のパフォーマンスも評価しました。

MariaDB は、特にデュアルソケット構成で優れたパフォーマンスを発揮し、効果的に拡張して最高のトランザクション スループットを達成しました。MySQL 8.4.4 は、レガシー バージョン 5.7.44 に比べて大幅に改善され、最近のリリースでの機能強化が際立っています。PostgreSQL 17.2 は安定したパフォーマンスを発揮しましたが、MariaDB および MySQL 8.4.4 よりわずかに遅れをとりました。MariaDB は、シングル ソケットで 3.15 万 TPM、デュアル ソケットで 5.8 万 TPM を実現し、両方のシナリオで他を上回りました。

パフォーマンス比較表(1分あたりのトランザクション数、TPM)

データベースエンジン シングルソケットTPM デュアルソケットTPM
マリアDB 11.4.4 3,150,000 5,800,000
MySQLの8.4.4 2,850,000 5,150,000
PostgreSQL 17.2 2,700,000 4,900,000
MySQLの5.7.44 2,300,000 4,250,000

R770 は CPU あたり 86 コア (高優先度コアと低優先度コアの混合) を含む強力なハードウェアを備えていますが、両方のソケットに分散しても、データベースのパフォーマンスが大幅に向上することはありませんでした。これは、コアの局所性が向上し、メモリのレイテンシが短縮されるため、オープンソース データベースではシングル ソケット実行が一般的に好まれることを反映しています。

これらの結果から、R770 は単一のインスタンスをスケールアップするよりも、仮想化環境で複数のデータベース インスタンスを実行するのに適しています。システムのアーキテクチャは、高密度の混合データベース ワークロードをサポートするのに最適で、パフォーマンス コアと効率コアの両方を利用して、多数のインスタンスにわたって一貫したスループットを実現します。

7-Zip

人気の 7-Zip ユーティリティに組み込まれたメモリ ベンチマークは、圧縮および解凍タスク中のシステムの CPU とメモリのパフォーマンスを測定し、システムがデータ集約型の操作をどれだけうまく処理できるかを示します。

7-Zip ベンチマークでは、圧縮タスクに関しては、Dell システムは Lenovo (266.425 GIPS) よりも高い評価 (224.313 GIPS) を示し、CPU 使用率は Dell の方がわずかに低くなっています。しかし、解凍に関しては、Lenovo の方が Dell よりも高い評価 (288.457 GIPS 対 256.154 GIPS) を示し、CPU 使用率はやや高くなっています。Dell は、全体の総合評価 (261.290 GIPS) がわずかに高く、圧縮タスクと解凍タスクの両方で全体的な効率が優れていることを示しています。

7-Zip圧縮と 減圧 Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB RAM) Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512GB RAM)
圧縮中 – 現在の CPU 使用率 5267% 5064%
圧縮 – 電流定格/使用法 5.061GIPS 4.341GIPS
圧縮 – 電流定格 266.591GIPS 219.840GIPS
圧縮 – 結果として生じる CPU 使用率 5270% 5156%
圧縮 – 結果の評価/使用法 5.056GIPS 4.350GIPS
圧縮 – 結果の評価 266.425GIPS 224.313GIPS
解凍中 – 現在の CPU 使用率 5623% 6184%
減圧 – 電流定格/使用 4.586GIPS 4.688GIPS
減圧 – 電流定格 257.909GIPS 289.879GIPS
解凍 – 結果として生じる CPU 使用率 5627% 6205%
解凍 – 結果の評価/使用法 4.553GIPS 4.649GIPS
減圧 – 結果の評価 256.154GIPS 288.457GIPS
合計 – 合計 CPU 使用量 5448% 5681%
合計 – 合計評価/使用状況 4.804GIPS 4.500GIPS
合計 – 総合評価 261.290GIPS 256.385GIPS

yクランチャー

y-cruncher は、2009 年にリリースされた人気のベンチマークおよびストレス テスト アプリケーションです。このテストはマルチスレッドでスケーラブルであり、円周率やその他の定数を数兆桁まで計算します。このテストでは、速いほど良い結果が得られます。このソフトウェアは、コア数の多いプラットフォームをテストし、シングル ソケット プラットフォームとデュアル ソケット プラットフォームの計算上の優位性を示すのに優れています。

Y-cruncher ベンチマークの結果は、特にデータセットのサイズが大きくなるにつれて、P コア CPU を活用した Dell PowerEdge R770 と E コア CPU を搭載した Lenovo ThinkSystem SR630 V4 の間に大きなパフォーマンスの差があることを示しています。これは、どちらのシステムが優れているかというよりも、このワークロードで CPU タイプがどのように比較されるかを示すものです。

より小規模な計算では、デルのシステムはすでに先行しており、円周率の 1 億桁を 2.753 秒で計算しましたが、レノボは 5.997 秒と 10 倍以上の時間がかかりました。ワークロードが大きくなるにつれて、その差は広がりました。34.873 億桁では、デルは 81.046 秒で完了し、レノボの 50 秒の半分以下の時間でした。221.255 億桁の時点で、デルは優位性を維持し、タスクを 476.826 秒で完了しましたが、レノボは 53 秒かかり、デルは XNUMX% 速くなりました。

100億桁では、Lenovoは現在の512GB RAMの構成のためテストを完了できませんでした。Dellは2TBのRAMでワークロードを効率的に処理し、491.737秒で終了しました。

Y-クランチャー(持続時間が短いほど良い) Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB RAM) Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512GB RAM)
1億 2.753 seconds 5.997 seconds
2.5億 7.365 seconds 17.573 seconds
5億 16.223 seconds 37.793 seconds
10億 34.873 seconds 81.046 seconds
25億 99.324 seconds 220.025 seconds
50億 221.255 seconds 476.826 seconds
100億 491.737 seconds

ブレンダーOptiX

オープンソースの 3D モデリング アプリケーション。このベンチマークは、Blender Benchmark ユーティリティを使用して実行されました。スコアは XNUMX 分あたりのサンプル数で、高いほど優れています。

Blender ベンチマークの結果は、特に CPU レンダリングにおいて、Dell PowerEdge R770 が Lenovo ThinkSystem SR630 V4 よりも明らかにパフォーマンスが優れていることを示しています。CPU Monster シーンでは、Dell は 1,706.002 サンプル/分を達成し、Lenovo の 19 サンプル/分に対して 1,432.09% のリードを獲得しました。CPU Junkshop テストではこの差がさらに強調され、Dell は 1,169.370 サンプル/分に達し、Lenovo の 914.75 サンプル/分に対して 28% のリードを獲得しました。同様に、CPU Classroom テストでは Dell は 791.475 サンプル/分を記録しましたが、Lenovo は 656.68 サンプル/分で 20% の差をつけられました。

Lenovo システムには GPU が搭載されていないため、GPU ベースのレンダリングにも参加できませんでした。Dell の NVIDIA L4 は、Monster で 1,895.71 サンプル/分、950.42 サンプル/分、Classroom で 968.43 サンプル/分のスコアを示しました。

Blender CPU ベンチマーク Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB RAM) Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512GB RAM)
CPUモンスター(Blender 4.3) 1,706.002 サンプル/分 1432.09 サンプル/分
CPU ジャンクショップ (Blender 4.3) 1,169.370 サンプル/分 914.75 サンプル/分
CPU 教室 (Blender 4.3) 791.475 サンプル/分 656.68 サンプル/分
GPU モンスター (Blender 4.3) 1,895.712 サンプル/分 (GPUなし)
GPU ジャンクショップ (Blender 4.3) 950.424 サンプル/分 (GPUなし)
GPU 教室 (Blender 4.3) 968.432 サンプル/分 (GPUなし)

Cinebench R23

Cinebench R23 ベンチマーク ツールは、Cinema 3D エンジンを使用して複雑な 4D シーンをレンダリングすることで、システムの CPU パフォーマンスを評価します。シングルコアとマルチコアのパフォーマンスを測定し、3D レンダリング タスクを処理する CPU の能力を総合的に把握できます。

Cinebench R23 のベンチマーク結果では、特にプロセッサあたりのコア数を考慮すると、Dell PowerEdge R770 と Lenovo ThinkSystem SR630 V4 の CPU パフォーマンスに顕著な違いが浮き彫りになっています。630 基の Intel Xeon 4E プロセッサ (プロセッサあたり 2 コア) を搭載した Lenovo ThinkSystem SR6780 V144 は、CPU マルチコア テストで 99,266 ポイントのスコアを獲得し、Dell の 74,710 ポイントを上回りました。この差は、マルチコア パフォーマンスを制限する 288 基の Intel Xeon 2P プロセッサ (プロセッサあたり 6787 コア) と比較してコア数が多い (合計 86 コア) ため、マルチスレッド ワークロードにおける Lenovo の優位性を反映しています。

CPU シングルコア テストでは、Dell が 1,272 ポイントを獲得して Lenovo の 894 ポイントを上回り、コア数が少ないにもかかわらず、Dell の優れたシングルスレッド効率が際立っています。

Cinebench R23 Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB RAM) Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512GB RAM)
CPUマルチコア 74,710 pts 99,266 pts
CPUシングルコア 1,272 pts 894 pts
MP比 58.74 x 111.00 x

Cinebench 2024

Cinebench 2024 は、GPU パフォーマンス評価を追加することで、R23 のベンチマーク機能を拡張します。CPU パフォーマンスのテストは引き続き行われますが、レンダリング タスクを処理する GPU の能力を測定するテストも含まれています。

この更新されたベンチマークでは、Dell PowerEdge R770 は GPU パフォーマンスで 12,996 ポイントを獲得し、GPU アクセラレーションによるレンダリング タスクを処理する能力が強調されました。Lenovo ThinkSystem SR630 V4 には専用の GPU がないため、GPU スコアは記録されませんでした。

CPU マルチコア テストでは、Lenovo は 2,884 ポイントを獲得し、Dell の 2,831 ポイントをわずかに上回り、マルチコア パフォーマンスで Lenovo がわずかに優位に立ったことを示しています。CPU シングルコアでは、Dell が Lenovo を上回り、71 ポイントを獲得しました。これに対して Lenovo は 53 ポイントでした。これは、コア数が少ないにもかかわらず、Dell の方がシングルコア パフォーマンスが高いことを示しています。

Cinebench R24 Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB RAM) Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512GB RAM)
GPUスコア 12,996 pts
CPUマルチコア 2,831 pts 2,884 pts
CPUシングルコア 71 pts 53 pts
MP比 39.77 x 54.43 x

Geekbench 6

Geekbench 6 は、システム全体のパフォーマンスを測定するクロスプラットフォーム ベンチマークです。Geekbench ブラウザーを使用すると、任意のシステムと比較できます。

Geekbench 6 ベンチマークの結果は、Dell PowerEdge R770 と Lenovo ThinkSystem SR630 V4 の間に明らかなパフォーマンスの違いを示しています。CPU シングルコア テストでは、Dell が 1,797 のスコアで Lenovo を上回り、Lenovo は 1,173 のスコアで、Dell のシングルコア パフォーマンスが 53% 向上したことを示しています。

CPU マルチコア テストでは、Dell が再び 15,880 でトップとなり、Lenovo は 13,868 を獲得し、マルチコア パフォーマンスで Dell が 14% の優位に立った。これは、Dell の Intel Xeon 6787P プロセッサが、特に複数のコアが役立つタスクで、全体的な計算能力に優れていることを示唆している。

GPU OpenCL テストでは、NVIDIA L148,730 GPU のおかげで 4 というスコアが出て、Dell の優位性がさらに強調されました。

Geekbench 6(高いほど良い) Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB RAM) Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512GB RAM)
CPUシングルコア 1,797 1,173
CPUマルチコア 15,880 13,868
GPU OpenCLスコア 148,730 (GPUなし)

Blackmagic RAW スピードテスト

Blackmagic RAW Speed Test は、Blackmagic RAW コーデックを使用してビデオの再生と編集を処理するシステムの能力を測定するために設計されたパフォーマンス ベンチマーク ツールです。システムが高解像度のビデオ ファイルをデコードして再生する能力を評価し、CPU ベースと GPU ベースの両方の処理のフレーム レートを提供します。

CPU ベースのテストでは、Dell PowerEdge R770 は 141 FPS を達成し、630 FPS を記録した Lenovo ThinkSystem SR4 V120 を上回りました。これは、Dell システムが CPU ベースのビデオ処理を Lenovo よりも効率的に処理していることを示しています。GPU ベースのテストでは、Dell PowerEdge R770 は NVIDIA GPU の恩恵を受けて 157 FPS を記録しました。

Blackmagic RAW スピードテスト (高いほど良い) Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB RAM) Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512GB RAM)
FPSCPU 141のFPS 120のFPS
FPSCUDAについて 157のFPS 0 FPS (GPUなし)

ブラックマジックディスクスピードテスト

Blackmagic ディスク スピード テストは、ドライブの読み取りおよび書き込み速度をベンチマークし、特にビデオ編集タスクのパフォーマンスを推定します。これにより、ユーザーは、ストレージが 4K や 8K ビデオなどの高解像度コンテンツに十分な速度であることを確認できます。

Blackmagic のスピード テストでは、ミラーリングされた SK hynix 770GB Dell NVMe を搭載した Dell PowerEdge R480 ボス カードが、読み取り速度 3,010.3 MB/秒、書き込み速度 976.3 MB/秒を達成しました。

まとめ:

Dell PowerEdge R770 は、Open Compute Project のデータセンター モジュラー ハードウェア システム標準と最先端のハードウェアを採用しており、非常に魅力的です。OCP DC MHS の統合により、モジュール性の強化、保守性の向上、標準化の強化によるコスト削減の可能性など、数多くのメリットがもたらされます。この設計哲学は、iDRAC を OCP DC-SCM として実装することからポートに至るまで、システムのあらゆる側面に表れています。

R770 は優れたストレージ機能も備えており、単一の 40U シャーシで最大 3 台の E2.S ドライブをサポートしているため、ストレージ集約型のワークロードに最適なソリューションとなっています。さらに、フロント I/O コールドアイル アクセス可能構成など、さまざまな構成をサポートすることでサーバーの柔軟性がさらに高まり、さまざまなデータセンター レイアウトや保守要件に柔軟に対応できます。

幅広い GPU と Intel Xeon 6 パフォーマンス コア CPU をサポートする R770 は、現代のデータ センターの要求を満たすのに適した、まさにパワフルで多用途なサーバー プラットフォームです。最先端のハードウェア、モジュール設計、堅牢なセキュリティ機能を備えた R770 は、AI、HPC、従来のエンタープライズ ワークロードを導入しようとしている組織にとって魅力的な選択肢です。

Dell PowerEdge

StorageReview と連携する

ニュースレター | YouTube |ポッドキャスト iTunes/Spotifyは | Instagram | Twitter | TikTok | RSSフィード