AIとHPCのワークロードが拡大するにつれ、電力と冷却の需要も増大しています。NVIDIAのRTX PRO 6000 Blackwell Server Editionを含む最新のGPUは最大600Wの電力を消費するため、従来のデータセンターインフラに多大な熱負荷がかかります。空冷サーバーはこれらのGPUに対応できますが、このレベルの密度で安定したパフォーマンスを維持するのは全く別の問題です。高ワット数のGPUを搭載したラックに空気を送り込むコストは、特に北欧、米国北東部、アジア太平洋地域の一部など、電気料金が高い地域では大幅に増加します。これらの市場において、液浸冷却は運用面と経済面で目に見えるメリットをもたらします。
HypertecのTrident iGW610R-G6サーバーは、こうした現実を念頭に置いて設計されました。空冷設計を流体環境に適応させた後付けサーバーとは異なり、Tridentファミリーのサーバーは液浸設計を採用しており、最初のPCBレイアウトから誘電流体内で動作するように設計されています。この新しい1U Hypertecプラットフォームは、21インチOCPレイアウトで最大4基のフルハイト、フルレングスのGPUをサポートし、コンピューティング密度と安定した熱挙動のバランスを実現しています。
Trident iGW610R-G6は、Hypertecのモントリオール研究所で評価を行いました。最初はリモートテストを実施し、その後、現地に移動してシステムの動作状況を記録・観察しました。テスト構成は、NVIDIA H100 GPU 1基とSolidigm SSD 2台で構成され、Castrol誘電液を満たしたSubmer浸漬タンク内で動作していました。持続的なワークロード全体を通して、Tridentは極めて安定した温度プロファイルを維持し、コンポーネントの温度変化は狭い範囲内にとどまりました。この安定性により、高性能システムにおける多くの長期的な信頼性問題の根本原因である熱サイクルが大幅に低減されます。
浸漬のメリットは温度制御だけにとどまりません。安定した温度条件により、GPUはスロットリングなしでピークブーストクロックを維持し、CPUは変動を抑えて動作し、ストレージデバイスは安定したI/Oスループットを提供します。この均一性は、信頼性の向上、予測可能なパフォーマンス、そしてラックユニットあたりのエネルギー利用効率の向上につながります。これらは、大規模なAIおよびHPC環境を構築する組織にとって重要な成果です。
この評価は、Hypertecとのこれまでの協力関係に基づいており、詳細は エッジAIをどこでも:液浸冷却モバイルデータセンターが実現このプロジェクトは、没入感を通してエッジにおけるモバイルAIインフラストラクチャの可能性を示しました。今回は、固定データセンターへの導入に焦点を移し、Trident iGW610R-G6と、SubmerおよびCastrolの周辺エコシステムが、高密度GPUコンピューティングにおいて実用的なラックスケールの効率性を実現する様子を実証します。
TRIDENT iGW610R-G6 の設計と構築
TRIDENT iGW610R-G6は、従来の空冷式ラックサーバーとは明確に異なるアプローチを採用しています。一見すると、従来のトップカバーがないため、主要コンポーネントが液浸液に完全に露出していることに気付くでしょう。このオープンシャーシ設計は、液浸液との接触面積を最大化し、効率的な熱伝達を実現することで、内部ファンや通気口を必要としません。システムのあらゆる側面は、単相液浸冷却用に設計されており、熱エネルギーは空気の流れではなく周囲の液浸液によって均一に吸収・排出されます。その結果、高密度で高性能なコンピューティング環境に最適な、静音性と振動のないプラットフォームが実現しました。
筐体は1Uフォームファクタで、サイズは33.46×21.06×1.75インチ、フル装備時の重量は約32.6kgです。薄型ながら、メンテナンス性に優れたレイアウトを採用しています。前面からアクセスできる72つのE1.S NVMeベイと、タンク内部に容易にアクセスできるPCIeスロットを備え、コンポーネントの交換を容易にします。この設計は主要な液浸タンクシステムと直接統合可能で、専用のハードウェアエンクロージャやエアフローコントロールなしでプラグアンドプレイの互換性を提供します。
テストユニットは、32コア、160MBキャッシュ、ソケットあたり最大350ワットのTDPを備えたデュアルIntel Xeon 6530プロセッサーを搭載しています。冷却は、インジウム箔サーマルインターフェース材料を使用した、浸漬最適化されたカスタムソリッド銅ヒートシンクによって行われ、流体への効率的な熱伝達を確保しています。CPUコンプレックスは、4800 MT/sで動作する32個のDDR5 RDIMMモジュール(各32GB容量)とペアになっており、AI、HPC、データ分析ワークロードに十分な帯域幅を提供します。
このシステムの強みはストレージ構成にあります。オペレーティングシステム用の1TB M.2 NVMe SSD 2基に加え、プライマリデータ層としてSolidigm D5-P5430 E1.S 7.68TBドライブ4基を搭載しています。これらのEDSFFドライブは、コンパクトなフットプリントでPCIe 4.0の性能を活かし、高密度と優れた効率性を両立しています。E1.Sフォームファクターは、前面からサービス可能なドライブトレイにより、シャーシを排水したり持ち上げたりすることなく、工具なしで交換できるため、浸漬環境に最適です。Solidigmドライブは、サーバーの速度、耐久性、熱効率の全体的なバランスにも貢献し、AIモデルのストレージ、データステージング、高スループットの推論パイプラインに最適です。
このシステムは最大4基のダブル幅アクセラレータをサポートし、ユーザーは必要に応じてコンピューティング密度を拡張できます。ネットワークは、1GbEをサポートするデュアルポート10GBase-T OCP 3.0モジュールによって実現され、既存のデータセンターファブリックとの幅広い互換性を確保しています。
電力供給は1+1冗長構成の3000W 80 PLUS Titanium CRPS電源によって行われ、高負荷時でも安定したパフォーマンスと高いエネルギー効率を維持します。サーバー全体が水没しているため、エアフローを必要とせず、ファンの騒音や埃の蓄積もありません。この設計はメンテナンスを簡素化するだけでなく、コンポーネントの寿命を延ばし、全体的な信頼性を向上させます。
Hypertec社は、iGW610R-G6を水没型に導入することで、冷却運用コストを95%削減し、ハードウェア寿命を最大60%延長できると見積もっています。また、独立機関によるPUE(電力使用効率)は1.03と認定されています。さらに、最大99%の廃熱を回収するエネルギー再利用の可能性も備えており、このシステムは、パフォーマンス密度と持続可能性が効果的に共存できることを実証しています。
TRIDENT iGW610R-G6 管理の概要
TRIDENT iGW610R-G6は、ASPEED AST2600ベースボード管理コントローラ(BMC)を搭載したボード上に構築されており、iKVMおよび仮想メディアサポートによるIPMI 2.0への完全な互換性を提供します。この帯域外管理プラットフォームにより、管理者はオペレーティングシステムの状態に関係なく、システムの監視、設定、リモート管理を行うことができます。これらの機能は、高密度実装や液浸冷却システムの構築に不可欠です。
Webベースのインターフェースはシンプルで使いやすく、左側のパネルからはダッシュボード、システム情報、センサー、ログとレポート、電源制御の各セクションに素早くアクセスできます。各エリアでは、システムの健全性、センサーデータ、ファームウェアレベル、電源状態を詳細に確認できます。ダッシュボードには、稼働時間、アクセスログ、コンポーネント情報が一目でわかるように表示され、追加のソフトウェアを必要とせずにシステムの状態を明確に把握できます。
浸水環境での運用において、これらのリモート機能は特に有用です。管理者は、メディアや周辺機器をオイルタンクに物理的に挿入する代わりに、仮想メディアを介してオペレーティングシステムの導入、イメージのマウント、アップデートを実行できます。これにより、メンテナンス時間が短縮され、水没したハードウェアの運用をクリーンで効率的かつ安全な状態に保つことができます。
ダッシュボードシステムの概要
メインダッシュボードには、電源投入時間、ファームウェアバージョン、ネットワークの詳細、GPUの状態が表示されます。TRIDENTプラットフォームの中央ステータスパネルとして機能し、BMCは温度、電圧、センサーのテレメトリを提供し、IPMIコマンドまたはSNMP監視ツールを介してアクセスできます。
プロセッサインベントリ
プロセッサページには、各ソケットのモデル、コア数、ステータスが表示されます。このユニットには、Intel Xeon Gold 6530プロセッサが2基搭載されています。各プロセッサは32コアで、x86アーキテクチャを採用し、CPU1ソケットとCPU2ソケットに搭載され、有効化されています。このページには最大速度が4,000MHzと表示され、アーキテクチャとファミリも確認できるため、両方のCPUが正常に動作し、期待どおりにマイクロコードが実行されていることを簡単に確認できます。
メモリコントローラインベントリ
メモリコントローラページには、すべてのDIMM(容量、ベンダー、シリアル番号、部品番号、状態、動作速度を含む)が表示されます。この構成では、各スロットにMicron製の32,768 MiB DDR5 RDIMM(部品番号:MTC20F1045S1RC48BA22)が装着されており、有効化されて4400MHzで動作し、最大許容周波数は4800MHzです。テーブルビューにより、チャネルの装着状況を簡単に確認でき、すべてのバンクでタイミングが均一であることを確認できます。
保管在庫
ストレージタブには、接続されているドライブとコントローラが表示されます。このシステムでは、Solidigm D5-P5430 E1.S NVMe SSDがプライマリストレージとして使用され、Samsung 990 Pro 1TB M.2ドライブがオペレーティングシステムを処理していることがわかります。各ドライブのファームウェアリビジョン、インターフェース速度、暗号化ステータスが表示されるため、シャーシを開けずにストレージサブシステムを簡単に確認できます。
TRIDENT iGW610R-G6 の熱性能
熱挙動は長期的なシステム信頼性において重要な役割を果たします。Hypertec Trident iGW610R-G6は、液浸動作を念頭に置いて設計されています。高密度コンポーネントから熱を奪うためにヒートシンク上の空気の流れに頼るのではなく、Tridentは誘電液体に完全に浸漬された状態で動作します。この液体は、ハードウェアから管理された冷却回路に直接熱を伝導します。この設計により、ファンの故障、埃の混入、湿気への曝露など、空冷システムによく伴う機械的なリスクを排除します。電子機器を空気から隔離し、連続した液体の熱経路を導入することで、システムは高度に制御された一貫した熱環境を維持します。
テスト中、Trident iGW610R-G6は、単相浸漬冷却用に構成されたSubmer SmartPod Exoタンク内で動作しました。この構成では、誘電液がシャーシ内を継続的に循環し、CPU、GPU、NVMeドライブから熱を吸収した後、内蔵熱交換器を通過します。吸収された熱は施設内の冷水ループに送られ、そこから建物の排熱インフラへと排出されます。この閉ループ設計により、ラック全体の温度が一定に保たれ、均一な冷却水の流れが確保され、高密度コンピューティング構成で発生しやすいホットスポットの発生を防ぎます。
循環流体は、高い比熱容量を持つ熱貯蔵庫として機能します。熱負荷が変化すると、液体はエネルギーを吸収し、タンク全体に均等に再分配します。これにより温度勾配が最小限に抑えられ、空冷式データセンターでよく見られるコンポーネントレベルの温度変動が防止されます。従来の環境では、室温やファン速度の変化によって、繊細なコンポーネントの温度が数度変動することがあります。時間の経過とともに、これらのサイクルははんだ接合部や基板に物理的なストレスを与えます。浸漬処理では、この影響はほぼ排除されるため、機械的疲労が軽減され、ハードウェアの寿命が延びます。
高負荷時の熱挙動を測定するため、Trident iGW610R-G6の主要サブシステムすべてにストレスをかけました。FIOを使用して各SSDに継続的なI/O負荷をかけ、GPUとCPUのストレステストでは各コンポーネントを100%まで昇圧しました。実行中は数時間にわたってコンポーネントの温度を記録し、平衡状態と変動特性を評価しました。
結果は非常に安定していました。CPUは約52℃で安定し、アイドル時より約13.7℃高くなりました。GPUは約58℃でピークに達し、21.1℃上昇しました。4つのSolidigm NVMe SSDはいずれも同様の傾向を示し、負荷時の温度範囲は29℃~30℃で、温度差は8.8℃~9.2℃でした。平衡状態に達すると、テスト中は温度は変動が最小限に抑えられ、流体の均一な分散と設備ループを通じた効率的な放熱が示されました。
時系列データはこの性能を裏付けています。初期のウォームアップ段階の後、すべてのセンサーは安定したほぼ水平の温度線を示しています。大きな振動や温度ドリフトは見られず、液浸冷却によって一定の温度が維持され、冷水ループがタンクから効率的に放熱していることを示しています。Tridentの温度プロファイルは、継続的な全負荷運転下でも非常に予測可能でした。
信頼性の観点から、この安定性は大きなメリットをもたらします。ファンがないため可動部品のメンテナンスが軽減され、密閉された環境により埃の侵入やコネクタの酸化を防ぎます。これらの特性は、時間の経過とともに故障率の低下と平均サービス間隔の短縮につながります。Trident iGW610R-G6プラットフォームとSubmerの単相SmartPod Exo環境を組み合わせることで、高密度な導入にも柔軟に対応できる、繰り返し使用が可能で耐障害性に優れた冷却ソリューションが実現します。
全体として、Trident iGW610R-G6から収集された熱データは、アクティブ液体循環を備えた液浸冷却が、優れた熱管理だけでなく、測定可能な信頼性のメリットももたらすことを示しています。コンポーネント温度を一定に保ち、周囲温度への依存を排除することで、システムはワークロードや稼働時間に関係なく最適な範囲内で動作し、高可用性コンピューティングおよびストレージワークロードに最適です。
組織がイマージョンを選択する理由
液浸冷却はもはや実験段階ではありません。大規模なAIおよびHPC環境を構築する組織は、安定した熱性能、ラック密度の向上、そして電力と施設リソースの効率的な利用を実現するために、現在液浸冷却を導入しています。以下の事例は、液浸冷却プラットフォームが実稼働環境に実際に導入されている様子を示しています。
アダセン
ADACEN は、AI および HPC-as-a-service プラットフォームの拡張をサポートするためにイマージョン ボーン インフラストラクチャを選択しました。これにより、組織は高密度の GPU 構成を実行できると同時に、施設の冷却要件を簡素化し、長期的な運用効率を向上させることができました。
「Hypertec社と提携したのは、同社の液浸技術が、空冷やチップへの直接冷却では到底実現できない運用面と持続可能性の面で優位性をもたらしてくれるからです。彼らの完全エンジニアリングされた液浸プラットフォームにより、高密度のCPUおよびGPUリソースを展開し、冷却エネルギーを90%以上削減し、機械的な故障点を排除することが可能になりました。Hypertec社のシステムにより、AI/HPC as-a-Serviceワークロードを効率的に拡張しながら、パフォーマンスとESG目標を達成することが可能です。だからこそ、Hypertec社は当社のAI戦略の中核を担っているのです。」 – ADACEN 収益オペレーション担当ディレクター、バーナード・ウェストウッド
ADACENは、ホスト型インフラストラクチャにおける高密度展開のモデルの一つです。研究用コンピューティング環境でも同様の推進要因と成果が見られます。
ウォータールー大学
ウォータールー大学は、次世代の研究コンピューティングを支えるため、9つの液浸タンクに700ノードを導入しています。液浸タンクへの移行により、安定した熱挙動と施設の複雑さの軽減を実現した高密度GPUクラスターが実現します。
「Nibiでは、液浸冷却を採用しました。これは、データセンター設計を簡素化しながら、卓越した効率と信頼性を提供するためです。Hypertecの液浸冷却サーバーは、従来の空冷や液冷システムの複雑さを伴わずに、高密度コンピューティングを容易に導入することを可能にしました。このアプローチはパフォーマンスと安定性を向上させ、非常に持続可能でエネルギー効率の高いHPC環境を構築するという私たちの目標を支えています。」 – ウォータールー大学、SHARCNETテクノロジーディレクター、ジョン・モートン氏
これらの導入は、予測可能なパフォーマンスを大規模に提供するためにイマージョンがすでに使用されていることを示し、このアプローチを採用している多くの組織のうちの 2 つにすぎません。
結論
Hypertec Trident iGW610R-G6の評価により、液浸冷却は高密度GPUおよびストレージ構成において一貫したパフォーマンス向上をもたらすことが明らかになりました。継続的なワークロード全体にわたって、システムは温度ドリフトや振動を生じることなく、狭く安定した温度差を維持しました。CPUとGPUは負荷下でも一貫した動作点を維持し、Solidigm E1.Sドライブはわずかな温度変動で安定したI/Oスループットを実現しました。このレベルの熱安定性は、コンポーネントへのストレスを直接的に軽減し、早期摩耗を引き起こす可能性のある条件を最小限に抑えます。
これらの調査結果は、大規模事業者が実稼働環境で報告している内容と一致しています。ADACENは、液浸型システムにおいて、熱サイクルの低減、ファンの振動および微粒子への曝露の排除により、年間故障率(AFR)が目に見える形で低下したことを報告しています。その結果、長期にわたる信頼性の向上、メンテナンス頻度の削減、そして大規模システムにおけるサービス継続性の向上が実現します。
ウォータールー大学が9つの液浸タンクに700ノードを導入したことは、液浸冷却が高密度コンピューティングクラスターの構築と拡張における実用的な戦略として採用されていることをさらに裏付けています。運用効率、パフォーマンスの安定性、そして簡素化された設備要件により、AIおよびHPCワークロードの大規模な実行を計画している組織に最適です。
液浸冷却は、既に実稼働環境において安定したパフォーマンスと運用効率を実現しています。コンピューティング密度と消費電力の増加が続く中、Trident iGW610R-G6のような液浸冷却プラットフォームは、大規模なAIおよびHPC導入において、実用的かつ持続可能な未来への道筋を提供します。
このレポートは Solidigm によって後援されています。このレポートで表明されているすべての見解や意見は、検討中の製品に対する当社の公平な見解に基づいています。








Amazon