StorageReview.com

ZutaCore社、高密度Blackwell PCIeサーバー向けに水なし二相冷却システムを開発

Enterprise  ◇  サーバーラック

ZutaCoreは、シングルスロットPCIeフォームファクタにNVIDIA 6000 Blackwell Server Edition GPUを搭載したサーバー向けに、水を使わない2段階冷却を可能にするコールドプレート「OmniTherm」を発表しました。このソリューションは、専用のサーバープラットフォームや没入型システムに切り替えることなく、標準的なエンタープライズサーバーやAIクラウドサーバー設計でこれらのアクセラレータをフルパワーで稼働させたいと考えているOEMや大規模事業者向けです。

Zutacore OmniTherm コールドプレートの上面図

PCIe GPUサーバーは、導入、拡張、既存のラックおよび電源インフラへの統合が容易なため、AI推論や混合ワークロードにおいて依然として最有力候補となっています。しかし、GPUの電力密度が高まるにつれ、従来の空冷ではパフォーマンスが制限され始めます。そのため、運用者はファンの回転速度を上げる必要に迫られることが多く、その結果、消費電力が増加し、騒音レベルが上昇するだけでなく、高負荷なAIワークロード実行時にはシステムが過熱するリスクも残ります。

オムニサーモ ZutaCoreは、サーバーシャ​​ーシ内で水を使用せずに二相液冷方式に移行することで、この問題を解決することを目指しています。コールドプレートは、熱源で沸騰し、別のループで凝縮する密閉された誘電性流体を使用します。シングルスロットPCIeプロファイルを維持することで、ZutaCoreは、システム構築者が標準的なサーバーアーキテクチャでアクセラレータ密度を維持または増加させながら、熱の大部分を液冷ループに移行できるようにします。これにより、高回転ファンの必要性が減り、消費電力が削減され、ラックレベルでの熱と騒音の圧力が軽減されます。

ZutaCoreのCTOであるMy D. Truong氏は、データセンターがラックレベルの電力予算の増加に直面する中で、柔軟性と高密度性を兼ね備えたPCIe GPUの重要性が高まっていることを強調しました。同氏は、水を使用しない2相冷却とシングルスロットのフォームファクタの組み合わせにより、特に導入規模が拡大するにつれて、継続的なAIワークロードに対して安定した熱性能を維持しながら、サーバーあたりのアクセラレータ数を増やすことができると述べています。

常時稼働で変動するAIワークロード向けに構築されています

実稼働中のAI環境では、ワークロードが一定に保たれることはほとんどありません。推論タスクは非常に変動が大きく、トラフィックパターンやモデルの動作に応じて使用量や消費電力が変化するためです。こうした変動は急激な温度変化を引き起こし、空冷式の設計に負担をかけ、パフォーマンスの信頼性を損なう可能性があります。

OmniThermの2段階熱設計は、これらの変化に迅速に対応します。GPU負荷が増加すると、コールドプレートでより多くの誘電性流体が蒸発し、ファン速度を上げることなく熱伝達が向上します。負荷が減少すると、蒸気が凝縮することでシステムは自然に安定します。この機能により、オペレーターはさまざまなワークロードにおいてより安定した温度を維持できます。これにより、信頼性の高いパフォーマンスがサポートされ、高密度PCIe GPUサーバーにおける一時的なスロットリングのリスクが低減されます。

長期インフラ投資の保護

通信事業者にとって、ピークスループットと同様に、長期にわたる信頼性とパフォーマンスも非常に重要です。ZutaCore社は、OmniThermがGPUダイだけでなく、CPUや次世代高帯域幅メモリといった近隣の高価値コンポーネントも冷却すると主張しています。メインアクセラレータASICだけでなく、より広範囲をカバーすることで、マルチチップやHBMを多用する設計において特に重要なホットスポットを的確に冷却します。

この広範囲な熱保護機能は、コンピューティングシステムとメモリシステムの両方に負荷をかける、長時間かつ帯域幅を大量に消費するAIタスクをサポートします。これらのコンポーネントへの熱ストレスを軽減することで、長期的な安定性を向上させ、パフォーマンスの低下を抑え、GPUとメモリ技術の進歩に伴う高出力PCIeプラットフォームへの投資を保護することができます。

ラックスケール運用上の考慮事項

ラックが扱う電力密度が高まるにつれ、空冷のみに頼る場合のコストと複雑さは急速に増大する。ファンの消費電力の増加、騒音の増大、そしてより厳格な空調設備要件はすべて運用コストの増加につながり、データセンターの作業環境にも影響を与える可能性がある。

OmniThermの密閉型非導電性誘電体流体ループは、サーバー内の熱の大部分を吸収し、シャーシ内に水を導入することなく、施設側の液体ループに伝達するように設計されています。この構造により、極端なファン速度への依存度を低減し、冷却エネルギー消費量を削減し、オペレーターが騒音レベルを管理しやすくなります。また、この構成により、冷却需要を空気の流れだけに頼るのではなく、液体システムに移行することで、既存のスペースにおけるPCIeベースのAI導入の拡張も可能になります。

ハイパークールクラウド

ZutaCoreは、OmniThermに加えて、分散配置された液冷システムを管理するクラウドベースの運用プラットフォームであるHyperCool Cloudを発表しました。このプラットフォームは、セキュリティとテレメトリ駆動を重視して設計されており、冷却液分配ユニット(CDU)および関連する冷却機器に関するほぼリアルタイムの情報を提供します。

HyperCool Cloudは、CDU(冷却ユニット)のテレメトリを提供し、フリート全体の監視をサポートし、アラーム発生から解決までのワークフローを実装します。これにより、運用担当者は、液冷システムが他のインフラストラクチャコンポーネントと同様に、管理され監視可能なサービスとして運用できるようになります。目標は、液冷システムが複数の拠点や大規模なPCIe GPUサーバー群に拡大するにつれて、サービス応答性の向上、インシデント管理の効率化、稼働率の向上を実現することです。

OmniThermとHyperCool Cloudを組み合わせることで、ZutaCoreは、水を使わない二相液体冷却を用いてPCIeベースのAIプラットフォームを拡張する際の、ハードウェア面と運用面の両方の課題に取り組むことが可能になります。

StorageReview と連携する

ニュースレター | YouTubeでご覧いただけます。 |ポッドキャスト iTunes/Spotifyは | Instagram | Twitter | TikTok | RSSフィード

ハロルド・フリッツ

IBM が Selectric を設立して以来、私はテクノロジー業界に携わってきました。しかし、私のバックグラウンドは執筆です。そこで私はプリセールスの仕事から抜け出し、自分のルーツに戻り、少し執筆活動をしながらもテクノロジーに携わることにしました。