StorageReview.com

HPE ProLiant DL380a Gen12レビュー:高密度マルチGPU AI向け空冷4Uサーバー

Enterprise  ◇  サーバー

HPE ProLiant Compute DL380a Gen12は、ラック構成を変更することなく高密度化を求める主流のエンタープライズAIチームをターゲットとしています。この4U空冷シャーシはすっきりと設置でき、最大8基のダブルワイドGPUをサポートし、PCIe Gen5を全面的に採用しています。最大144コアのデュアルIntel Xeon 6 CPU、32基のDIMMで4TBのDDR5メモリ、そして16個のE3.S NVMeベイを搭載可能で、高いスループットと容量を実現します。目標はシンプルです。液冷システムを導入することなく、本番環境レベルの推論と、集中的なファインチューニングを大規模に実現することです。

HPE ProLiant 380a Gen12

アクセラレータに関しては、HPEはNVIDIA H200 NVL、H100 NVL、L40S、L20、L4、そしてRTX PRO 6000 Blackwell Server Editionを網羅する幅広いスタックを検証しており、高消費電力コンポーネントをサポートするPSUオプションも用意されています。今回のレビューでは、エンタープライズAIの実用的なスイートスポットとなるRTX PRO 6000 Serverに焦点を当てています。各カードは、96GBのECC GDDR7、PCIe Gen5 x16、FP4対応Tensorコア、そして空冷ラックで動作する600Wエンベロープを備えています。私たちのマシンには4枚のカードが搭載されており、これは高スループット推論とターゲットを絞った微調整のための合理的な出発点であり、拡張性も十分に備えています。

HPE ProLiant 380a Gen12 - NVIDIA RTX PRO 6000 サーバー GPU

HPEは、運用に不可欠な要素をプラットフォームに組み込みます。iLO 7は、アウトオブバンドのセットアップ、ヘルスチェック、電源管理を担い、ファームウェアの整合性を確保するセキュアエンクレーブであるSilicon Root of Trust、4096ビットRSAのサポート、そしてサプライチェーン検証を強化する取り外し可能なDC-MHS iLOモジュールを備えています。また、このサーバーはHPEのプライベートクラウドAIフレームワークと連携し、複数チームによるガバナンスと、大規模システムへの繰り返し導入を実現します。

HPE ProLiant Compute DL380a Gen12 – 技術仕様

カテゴリー 製品仕様
プロセッサタイプ HPE ProLiant コンピュート DL380a Gen12
プロセッサーファミリー 第6世代インテル® Xeon® スケーラブル・プロセッサー
利用可能なプロセッサコア プロセッサに応じて64~144コア
プロセッサ数 2
プロセッサ速度 プロセッサーに応じて最大 2.4 GHz
最大メモリ 4 TB RDIMM (プロセッサーあたり 2 TB)
メモリスロット 32つのDIMMスロット
メモリタイプ HPE DDR5 スマート メモリ
メモリ保護 RAS: 高度な ECC、オンライン スペア、ミラーリング、複合チャネル (ロックステップ) 機能、HPE 高速フォールト トレラント メモリ (ADDDC)
ドライブサポート SFF NVMe と EDSFF
セキュリティ オプションのロックベゼル、侵入検知機能、および組み込みHPE TPM 2.0
インフラ管理 HPE iLO Standard with Intelligent Provisioning(組み込み)、HPE OneView Standard(ダウンロードが必要) •
オプション: HPE iLO Advanced および HPE OneView Advanced (ライセンスが必要)
電源 最大8台のM-CRPS。システムボードはシングル1+1冗長構成。GPUはデュアル2+1冗長構成。
拡張スロット 6
システムファン デュアルローターファン4個とシングルローターファン8個が付属
フォームファクター 4Uラック
保証 3/3/3: サーバー保証

HPE ProLiant DL380a Gen12 の設計と構築

HPE ProLiant Compute DL380a Gen12は、高性能でスケーラブルな導入向けに設計された4Uデュアルソケットラックサーバーです。6.88 x 17.63 x 31.60インチの筐体は、高密度のCPUおよびGPUコンピューティングパワーと効率的な空冷技術を組み合わせ、高負荷環境下でも信頼性の高い運用を実現します。

構成に応じて重量が82.7ポンドから137.8ポンドのこのシャーシは、大容量コンポーネント、冗長電源、そして保守性を高める容易なフロントアクセスをサポートします。パフォーマンス、拡張性、そして堅牢な熱管理を重視した設計で、エンタープライズ環境やデータセンター環境に最適です。
ストレージに関しては、HPE ProLiant DL380a Gen12は、SFFまたはEDSFFフォーマットで4ベイ構成と8ベイ構成を提供しています。レビュー機は、HPE DL380a Gen12 NS204i-uフロントケージキットを搭載しており、2基のNVMe M.2ホットプラグ対応ブートデバイスをサポートしています。また、シャーシには2.5インチベイが8基搭載されており、HPEブランドのU.3 SSD(容量15.36TB)が2基搭載されています。HPEは複数のフロントベイオプションを提供しており、多様な導入ニーズに柔軟に対応できる拡張性を実現しています。


ユニットは両側に2つのハンドルが付いているため、安全にラックへの取り付けと設置を行うには少なくとも2人が必要です。伸縮式レールを備えた2Uレールキットを使用することで、ラック全体を取り外すことなくスムーズな設置とラック内での保守が可能です。
HPE ProLiant DL380a Gen12の背面には、エアフロー、拡張性、保守性を重視した整理されたレイアウトが施されています。システムは最大8基のMCRPS電源(1~8)をサポートし、内蔵のエアベンチレーションウォールにより、負荷時でも最適な冷却を維持します。拡張性も充実しており、複数のPCIe Gen5 x16スロット(スロット1~6)には、デフォルトおよびオプションのキャプティブライザーカードが接続可能で、OCPスロットAおよびBにより柔軟なネットワークアダプター構成が可能です。

接続機能には、専用のiLOネットワークポート、複数のUSB 3.2 Gen 1ポート、そしてローカル管理用のVGAポートが含まれます。スロット1はHPE DL380a Gen12 4EDSFF Direct Cable for NVD (P74716-B21) が取り付けられている場合にのみ使用可能であり、SFF NVMeドライブでは使用できません。また、スロット4は4基または8基のDW GPUを搭載した構成ではサポートされません。

HPE ProLiant 380a Gen12 背面
HPE ProLiant DL380a Gen12の電源は、モジュラーM-CRPS Titaniumホットプラグ電源キットによって供給されます。サポートされるオプションには、1500W (P67244-B21)、2400W (P67252-B21)、3200W (P67248-B21) モデルが含まれます。システムは最大8台のPSUをサポートし、N+1冗長性により、電源モジュールの故障時でも継続的な運用を保証します。GPUの構成に応じて、電力要件と電力配分は異なります。レビュー機には2400W M-CRPS電源が5台搭載されており、信頼性の高い冗長性を維持しながら、システムの4つの600W TDP GPUをサポートするのに十分な容量を備えています。
HPE ProLiant DL380a Gen12の内部を上から見下ろすと、HPEがこのシャーシをGPUファーストの熱戦略で設計していることが一目瞭然です。GPUをシステムの前面に配置することで、直接かつ遮るもののないエアフローを確保しています。冷却システムは4つのホットプラグ対応ファンアセンブリを備え、それぞれに92×56mmのデュアルローターファン1基と40×28mmのシングルローターファン2基が搭載されています。小型ファンはCPUとメモリモジュールにエアフローを集中させ、下部コンポーネントの効率的な熱管理を実現します。一方、大型のデュアルローターファンは、GPUアレイ全体に大量のエアフローを直接送り込むように特別に設計されています。このバランスの取れた設計により、高電力ワークロードが持続的に発生する場合でも、コンピューティングコンポーネントとアクセラレータコンポーネントの両方に最適な冷却が保証されます。


GPU構成を確認したところ、ユニットには4基のPCIe 5.0 GPUが事前に配線されており、それぞれがフロントGPUケージ内にすっきりと取り付けられていました。システムは、AI、レンダリング、コンピューティングワークロード向けに最適化されたNVIDIAの新しいプロフェッショナル向けラインナップの一部であるNVIDIA RTX PRO 6000 GPU(Blackwell Server Edition、96GB)で構成されていました。DL380a Gen12は、ビルドに応じて4基または8基のデュアル幅GPU、または最大16基のシングル幅アクセラレータをサポートし、幅広いエンタープライズおよびAI導入に柔軟に対応します。

このプラットフォームでサポートされている GPU は次のとおりです。

  • NVIDIA RTX PRO 6000 サーバー エディション (96GB)
  • NVIDIA H200 NVL (141GB)
  • NVIDIA H100 NVL (94GB)
  • NVIDIA L40S (48GB)
  • NVIDIA L20 (48GB)
  • NVIDIA L4 (24GB)

この柔軟なGPUレイアウトと高帯域幅のPCIe Gen5レーンの組み合わせにより、DL380a Gen12は高密度推論タスクと大規模AIトレーニング環境の両方に対応可能です。筐体内部の奥深く、冷却シュラウドを装着した状態から、HPEの緻密なエアフロー管理へのエンジニアリングアプローチが見て取れます。シュラウドは精密に成形されたバッフル設計を採用し、CPU、メモリモジュール、VRMに効率的に空気を導き、システム全体の冷却を均一にします。

CPUクーラーについて言えば、HPEはDL380a Gen12を熱バランスを考慮して設計しました。各Xeon 6プロセッサーには、CPU自身の発熱に加え、シャーシ前面に配置されたGPUから発生する追加の熱も処理できるよう設計された、高さのある高密度ヒートシンクが搭載されています。この設計により、GPUの排気によってCPUゾーン周辺の周囲温度が上昇する可能性のある、高負荷の混合ワークロード下でも、一貫した冷却性能が確保されます。高ワット数のGPUを搭載する場合、高さのあるヒートシンクとHPEの前面から背面へのエアフロー設計を組み合わせることで、追加の熱負荷を効果的に管理するために必要な表面積と冷却効率が得られます。

ILO 7の概要

前述の通り、このシステムには専用のiLOポートが搭載されており、アウトオブバンド管理機能により、完全なサーバー制御と監視を実現します。このボックスには新しいHPE iLO 7インターフェースが搭載されており、管理者は刷新されたインターフェースと強化された機能にアクセスできます。これらの機能はHPE Compute Ops Managementと統合されており、構成、監視、ライフサイクル管理を効率化します。以下は、サンプルシステムの新しいHPE iLO 7ログイン画面です。

ダッシュボードを見ると、HPE iLO 7はシステムステータスと主要なヘルスインジケーターを即座にハイライト表示する、最新のインターフェースを備えていることがわかります。メインパネルには、ホストの電源状態、ヘルス、HPE Compute Ops Managementとの接続状況の概要が表示されます。右側には、iLOのIPアドレス、ホスト名、ライセンスの種類などの一般的なシステム情報が表示され、すぐに参照できます。

ダッシュボードは、ファンの冗長性、電源の健全性、温度測定値といった重要な指標を、分かりやすく色分けされたレイアウトに統合し、サーバーの状態を一目で把握できるようにします。仮想メディアとリモートコンソールへのアクセスもメインページから直接アクセスできるため、追加の操作なしで一般的なリモート管理タスクを効率化できます。

HPE iLO 7の「ファームウェア」タブでは、すべてのコンポーネントとアップデート管理タスクが整理された分かりやすいビューで表示されます。このインターフェースには、ファームウェアインベントリ、アクティブなインストールキュー、検証結果が、操作しやすいカードベースのレイアウトで表示されます。管理者は、アップデートを迅速に開始したり、iLOリポジトリにパッケージをアップロードしたり、一括展開用のインストールセットを作成したりできます。

ファームウェアの検証とリポジトリ管理がこのビューに直接組み込まれているため、ユーザーは整合性を確認し、コンポーネント間のバージョンの一貫性を維持できます。右側の「クイックアクション」メニューは、ファームウェアのアップデートや新しいファイルのアップロードといった重要なタスクを効率化します。「ファームウェア設定」カードでは、ダウングレードポリシーやサードパーティ製パッケージの受け入れについて制御できます。

HPE iLO 7のホストセクションでは、電源制御、仮想メディア、ハードウェアの健全性、システムパフォーマンスといった重要なサーバー管理機能に素早くアクセスできます。管理者は、このインターフェイスからリアルタイムのハードウェア冗長性ステータスを確認したり、統合管理ログにアクセスしたり、リモートコンソールを直接起動したりできます。また、このレイアウトには、正常なシャットダウン、電源の再投入、リセット機能といったクイックアクションも用意されており、物理的なアクセスなしにシステムを完全にリモート制御できます。

右側のパネルには、TPMステータス、プラットフォームポリシー設定、ハードウェアモジュール情報などのホスト設定が表示されます。このセクションでは、iLO 7が集中管理ハブとしての役割を担うことを強調しています。管理者は、電源管理、イベント監視、運用監視を単一のビューで安全に行うことができます。
「ホスト > ハードウェア」ビューから、システムに搭載されているGPUを確認できます。前述の通り、このユニットには4基のNVIDIA RTX PRO 6000 Blackwell GPUが搭載されており、それぞれが有効で正常に動作していると報告されています。iLO 7は、モデル番号、部品番号、シリアル番号などの詳細なハードウェア情報を提供するため、管理者はコンポーネントの健全性を一目で確認できます。


HPE iLO 7の「セキュリティ」タブには、システム保護とアクセス管理に関連するすべての主要な制御が統合されています。概要パネルには、リスクレベル、構成ロック、証明書のステータスなど、セキュリティ状態の概要が表示されます。管理者はここから、暗号化設定、認証方法、TLS証明書の管理、セキュア消去とリモートキー管理の設定を行うことができます。

インターフェースは、自己署名証明書や未設定のキー管理など、注意が必要な領域を明確に示しながら、該当する場合には安全な動作が確保されていることを確認します。セキュリティログ、ユーザー管理ポリシー、アクセス制御に簡単にアクセスできるため、管理者はiLO環境から直接、システムのセキュリティ状況を包括的に把握できます。

iLO 7の「HPE Apps」タブでは、サーバーの展開とライフサイクル管理を強化する統合ツールにアクセスできます。管理者はこのビューから、外部メディアを必要とせずにオペレーティングシステムのインストール、ファームウェアのアップデート、システム構成を簡素化するように設計された組み込みユーティリティであるIntelligent Provisioningを起動できます。

iLO設定タブには、iLOインターフェースを管理するためのすべての設定と管理オプションが統合されています。管理者はここから、ユーザーアクセス、ネットワークポート設定、認証方法、ログ出力の動作を制御できます。メニューには、トラブルシューティング、ポリシー適用、ライセンス管理、時刻同期のオプションも含まれています。

iLO 設定のバックアップや復元、リセットなどのクイックアクションは右側から簡単に実行でき、メンテナンス作業を効率化します。レイアウトは iLO 7 のモダンなカードベースインターフェースの残りの部分を反映しており、セキュリティ、接続性、動作パラメータを一元管理するための、すっきりとした整理された方法を提供します。

性能試験

DL380a Gen12の実用性能を評価するため、AI推論と一般的なコンピューティングワークロードの両方を網羅した包括的なパフォーマンステストを実施しました。これには、大規模言語モデル(LLM)向けのvLLMオンラインサービングベンチマークと、CPUスループット、メモリ帯域幅、Webサービング効率、暗号化パフォーマンスを測定するPhoronix Test Suiteベンチマークが含まれています。

システム構成

  • CPU: インテル Xeon 6527P CPU 2 基
  • メモリ: 16 x HPE 64GB 2Rx4 PC5-3400B-R スマートキット
  • GPU: NVIDIA RTX PRO 6000 (96GB) x 4
  • ストレージ: 2 x 15.63TB PM1733a U.3

vLLMオンラインサービング – LLM推論パフォーマンス

vLLMは、LLM向けの最も普及している高スループット推論およびサービス提供エンジンです。vLLMオンラインサービス提供ベンチマークは、同時リクエスト発生時におけるこの推論エンジンの実世界におけるサービス提供能力を測定するパフォーマンス評価ツールです。リクエストレート、入出力長、同時クライアント数などの設定可能なパラメータを用いて、実行中のvLLMサーバーにリクエストを送信することで、実稼働ワークロードをシミュレートします。このベンチマークは、スループット(tok/s)、最初のトークンまでの時間、出力トークンあたりの時間などの主要な指標を測定することで、ユーザーがさまざまな負荷条件下でのvLLMのパフォーマンスを理解するのに役立ちます。

さまざまなスケールと量子化アプローチにわたる 3 つの代表的なモデルにわたって推論パフォーマンスをテストし、HPE ProLiant DL380a Gen12 の 4 つの NVIDIA RTX PRO 6000 GPU が実稼働の推論ワークロードをどのように処理するかを評価しました。

高密度モデルのパフォーマンス

高密度モデルは、推論中にすべてのパラメータと活性化が使用される従来のLLMアーキテクチャを表します。私たちは、Llama-2-70b-chat-hfとLlama-3.2-90B-Vision-Instructという2つの高密度モデル構成を評価しました。

Llama-2-70B-チャットパフォーマンス

シングルユーザー同時実行(BS=1)、TP=4の場合、このモデルはユーザーあたり32.89 tok/s、TPOTは30.18ミリ秒を達成しました。BS=8では、ユーザーあたり15.68 tok/s、総スループットは433.62 tok/s、TPOTは35.98ミリ秒に達します。BS=32にスケーリングすると、ユーザーあたり8.00 tok/sを維持しながら、総スループットは741.62 tok/sに達し、TPOTは43.44ミリ秒となります。

Llama-3.2-90B-ビジョン-パフォーマンスの指導

BS=1、TP=4の場合、このモデルはユーザーあたり20.59 tok/s、TPOTは38.27ミリ秒です。BS=16では、ユーザーあたり7.20 tok/s、総スループットは806.14 tok/s、TPOTは54.98ミリ秒にまで向上します。BS=128では、最大総スループット1372.21 tok/sを達成し、ユーザーあたり2.59 tok/s、TPOTは122.75ミリ秒です。

マイクロスケーリングデータ型パフォーマンス

マイクロスケーリングは、大規模なパラメータグループ全体にわたる均一な量子化ではなく、小さな重みブロックにきめ細かなスケーリング係数を適用する高度な量子化手法です。NVIDIAのNVFP4フォーマットは、8~32個の値からなるマイクロスケールブロックごとに共通の指数をスケーリング係数として共有するブロック化浮動小数点表現を通じてこの手法を実装します。このきめ細かなアプローチは、数値精度を維持しながら4ビット表現を実現し、トランスフォーマーアーキテクチャにとって重要なダイナミックレンジを維持します。このフォーマットは、RTX PRO 6000上のNVIDIA Tensor Coreアーキテクチャと統合されており、行列演算中にオンザフライで展開することで、効率的な混合精度計算を可能にします。

GPT-OSS-120B のパフォーマンス

OpenAIのGPT-OSS-120BモデルをNVFP4量子化を用いて評価しました。TP=2のシングルユーザー同時実行では、このモデルはユーザーあたり176.09 tok/sのスループットと5.46 msのTPOTを実現し、これはテストスイートの中で最も低いレイテンシです。BS=4、TP=4では、ユーザーあたり105.79 tok/sの性能に達し、TPOTは7.79 msで、総スループットは1155.94 tok/sです。BS=32、TP=4では、スループットはユーザーあたり47.54 tok/s、総スループットは3956.44 tok/sにまで拡張され、TPOTは13.86 msです。BS=64では、最大総スループット4015.77 tok/sが達成され、ユーザーあたり25.38 tok/s、TPOTは14.78 msです。

Phoronixベンチマーク

Phoronix Test Suiteは、OpenBenchmarking.org経由で450以上のテストプロファイルと100以上のテストスイートをサポートするオープンソースの自動ベンチマークプラットフォームです。依存関係のインストールからテストの実行、結果の収集まですべてを処理するため、パフォーマンス比較、ハードウェア検証、継続的インテグレーションに最適です。ここでは、Stream、7-Zip、Linuxカーネルビルド、Apache、OpenSSLのテストに焦点を当てます。

ストリームメモリ帯域幅

メモリスループットを測定するStreamベンチマークにおいて、HPE DL380a Gen12は542GB/秒という驚異的な速度を達成し、継続的な負荷下でも高いデータ転送速度を維持できるプラットフォームの能力を実証しました。このレベルの帯域幅は、データモデリング、シミュレーション、AI推論など、大規模なデータセットをメモリとコンピューティングリソース間で迅速に移動させる必要があるワークロードにおいて、このシステムを特に効果的に活用します。

7-Zip圧縮
7-Zip圧縮テストでは305 MIPを記録し、計算負荷の高い圧縮・解凍処理におけるシステムの強力なマルチスレッド効率を実証しました。これらの結果から、DL380a Gen12は、頻繁なデータパッケージング、アーカイブタスク、または一貫性と再現性のあるCPUパフォーマンスが求められるバックアップワークフローを含む環境に最適です。
カーネルコンパイル

DL380a Gen12は、Linuxカーネル(allmodconfig)の完全コンパイルを316秒で完了しました。このベンチマークは、並列化されたコード量の多いワークロードを容易に処理できるシステムの能力を示しています。コンパイル性能の向上は、大規模ソフトウェア環境やCI/CD環境で作業する開発者にとって、ビルド時間の短縮と反復処理速度の向上に直接つながります。

Apache Webサーバー

DL380a Gen12は、Webサービス性能においてApacheベンチマークで94,348リクエスト/秒を達成しました。この結果は、バランスの取れたI/O処理と優れたキャッシュ効率を示しており、エンタープライズWebアプリケーション、仮想化フロントエンド、または社内サービスホスティングに必要なスループットと応答性を提供します。

OpenSSL検証

暗号化性能も同様に優れており、DL380a Gen12はOpenSSLで毎秒803億回の演算を検証しました。これは、システムが大規模な暗号化、認証、そして安全な通信ワークロードを管理できる能力を示しています。

Phoronixベンチマーク HPE ProLiant DL380a Gen 12 (Intel Xeon 6527P 2基)
Stream  542,720.7 MB /秒
7-zip 304,907 MIP/秒
カーネルコンパイル (allmod) 316.166秒数
Apache(1秒あたりのリクエスト数) 94,347.52 R/s
OpenSSLの 803,597,895,087 検証/秒

結論

HPE ProLiant DL380a Gen12は、主流のエンタープライズAI市場向けに設計された、最も実用的でバランスの取れたAIサーバーの1つとして際立っています。4U空冷設計は、デュアルXeon 6 CPU、最大8基のダブルワイドGPUまたは16基のシングルワイドGPU、そして16基のE3.S NVMeベイをサポートし、高いコンピューティング密度を実現しながら、信頼性と容易な保守性を維持しています。HPEのエアフローと熱バランスに対するエンジニアリングアプローチは、高負荷時でも安定したパフォーマンスを確保し、高度なAIアクセラレーションが従来の空冷環境でも十分に機能することを実証しています。

iLO 7の搭載により管理性が大幅に向上し、HPEのようなTier 1サーバーベンダーにとって大きなメリットとなります。最新のインターフェース、HPE Compute Ops Managementとの統合、そして詳細なハードウェアテレメトリにより、リモート管理が直感的かつ効率的になります。ダッシュボード、ファームウェア、ホスト、セキュリティ、アプリ、設定の各セクションは、エンタープライズチームが頼りにしているオンプレミスの管理機能を犠牲にすることなく、よりクリーンでクラウド統合されたエクスペリエンスへとHPEが移行していることを反映しています。

パフォーマンステストにおいて、このサーバーは優れた結果を示しました。4基のRTX PRO 6000 GPUは、高密度およびマイクロスケールのLLMモデルの両方で優れたスループットを達成し、vLLMは液冷システムに匹敵するパフォーマンスを提供しました。PhoronixのCPUベンチマークでは、540GB/秒を超えるメモリ帯域幅、Apacheで94,000 RPS、毎秒8,000億回を超えるOpenSSL検証という、そのバランスの良さがさらに際立っており、AIと汎用コンピューティングの両方で強力なパフォーマンスを示しています。

HPEの設計目標は明確です。既存のラックと電源インフラに収まる空冷システムを用いて、高密度で本番環境対応のAIパフォーマンスを実現することです。空冷フォームファクターで信頼性、セキュリティ、そして容易な管理を実現するコンピューティングを求めるデータセンターチームにとって、DL380a Gen12は、成長を続ける主流AI市場に向けた、将来を見据えた優れたソリューションです。

HPE 製品ページ

StorageReview と連携する

ニュースレター | YouTube |ポッドキャスト iTunes/Spotifyは | Instagram | Twitter | TikTok | RSSフィード

ケビン・オブライエン

StorageReview Lab 内で製品を評価し、業界リーダーと協力して新しいテスト環境を開発します。家では家族を育てています。