ZutaCore a lancé OmniTherm, une plaque froide permettant un refroidissement diphasique sans eau pour les serveurs équipés de GPU NVIDIA 6000 Blackwell Server Edition au format PCIe simple emplacement. Cette solution s'adresse aux OEM et aux grands opérateurs souhaitant exploiter pleinement ces accélérateurs dans des architectures de serveurs cloud d'entreprise et d'IA standard, sans avoir recours à des plateformes serveur spécialisées ni à des systèmes d'immersion.
Les serveurs GPU PCIe restent une solution de choix pour l'inférence IA et les charges de travail mixtes, car ils sont plus faciles à déployer, à faire évoluer et à intégrer aux infrastructures rack et d'alimentation existantes. Avec l'augmentation de la densité de puissance des GPU, le refroidissement par air traditionnel commence à limiter les performances. Les opérateurs sont souvent contraints d'augmenter la vitesse des ventilateurs, ce qui accroît la consommation d'énergie, le niveau sonore et peut rendre les systèmes vulnérables à la surchauffe lors de charges de travail IA intensives.
OmniTherm ZutaCore vise à résoudre ce problème en passant à un refroidissement liquide biphasique sans utiliser d'eau dans le châssis du serveur. La plaque froide utilise un fluide diélectrique scellé qui bout au contact de la source de chaleur et se condense dans un circuit séparé. En conservant un profil PCIe à un seul emplacement, ZutaCore permet aux assembleurs de systèmes de maintenir, voire d'augmenter, la densité d'accélérateurs dans les architectures de serveurs standard tout en dissipant la majeure partie de la chaleur grâce à un circuit de refroidissement liquide. Ceci réduit le besoin de ventilateurs à haut régime, diminue la consommation d'énergie et atténue la pression thermique et sonore au niveau du rack.
My D. Truong, directeur technique de ZutaCore, a souligné l'importance croissante des GPU PCIe, qui offrent à la fois flexibilité et haute densité face à l'augmentation des budgets énergétiques des racks dans les centres de données. Il a précisé que l'association d'un refroidissement diphasique sans eau et d'un format à simple emplacement vise à aider les centres de données à augmenter le nombre d'accélérateurs par serveur tout en maintenant des performances thermiques stables pour les charges de travail d'IA continues, notamment avec l'expansion des déploiements.
Conçu pour les charges de travail d'IA variables et toujours actives
Les environnements d'IA en production présentent rarement une charge de travail stable. Les tâches d'inférence sont très variables, l'utilisation et la consommation d'énergie fluctuant en fonction du trafic et du comportement des modèles. Ces fluctuations peuvent entraîner des variations rapides de température, mettant à rude épreuve les systèmes de refroidissement par air et compromettant la fiabilité des performances.
La conception thermique biphasée d'OmniTherm réagit rapidement à ces variations. Lorsque la charge du GPU augmente, une plus grande quantité de fluide diélectrique se vaporise au niveau de la plaque froide, améliorant ainsi le transfert de chaleur sans augmenter la vitesse du ventilateur. Lorsque la charge diminue, le système se stabilise naturellement grâce à la condensation de la vapeur. Cette fonction permet aux opérateurs de maintenir des températures plus constantes, même en cas de variations de charge. Elle garantit des performances fiables et réduit le risque de bridage temporaire dans les serveurs GPU PCIe à haute densité.
Protéger les investissements à long terme dans les infrastructures
Pour les opérateurs, la fiabilité et les performances dans le temps sont tout aussi essentielles que le débit maximal. ZutaCore affirme qu'OmniTherm refroidit non seulement la puce GPU, mais aussi les composants critiques situés à proximité, tels que les processeurs et la mémoire haute bande passante de nouvelle génération. En couvrant une zone plus étendue que le simple circuit intégré spécifique à l'accélérateur (ASIC), le système cible les points chauds les plus critiques dans les architectures multi-puces et celles utilisant intensivement la mémoire HBM.
Cette couverture thermique étendue prend en charge les tâches d'IA de longue durée et gourmandes en bande passante, qui sollicitent fortement les systèmes de calcul et de mémoire. La réduction des contraintes thermiques sur ces composants contribue à améliorer la stabilité à long terme, à limiter la dégradation des performances et à préserver les investissements dans les plateformes PCIe haute puissance, à mesure que les technologies GPU et mémoire évoluent.
Considérations opérationnelles relatives aux balances à rack
Avec l'augmentation constante de la densité de puissance supportée par les baies, le coût et la complexité du refroidissement par air seul augmentent rapidement. La consommation accrue des ventilateurs, le niveau sonore plus élevé et les exigences plus strictes en matière de climatisation contribuent tous à l'augmentation des coûts d'exploitation et peuvent affecter les conditions de travail dans les centres de données.
Le circuit de fluide diélectrique étanche et non conducteur d'OmniTherm est conçu pour absorber la majeure partie de la chaleur du serveur et la transférer vers un circuit de liquide externe, sans introduire d'eau dans le châssis. Cette structure permet de réduire la dépendance à des vitesses de ventilation extrêmes, de diminuer la consommation d'énergie liée au refroidissement et d'aider les opérateurs à maîtriser le niveau sonore. Cette configuration permet également d'étendre les déploiements d'IA basés sur PCIe dans les espaces existants en privilégiant le refroidissement liquide plutôt que le seul flux d'air.
Nuage Hypercool
En parallèle d'OmniTherm, ZutaCore lance HyperCool Cloud, une plateforme d'exploitation cloud qui gère les systèmes de refroidissement liquide déployés sur des infrastructures distribuées. Conçue pour être sécurisée et pilotée par télémétrie, la plateforme offre une visibilité quasi temps réel sur les unités de distribution de fluide frigorigène (UDF) et les équipements de refroidissement associés.
HyperCool Cloud fournit des données de télémétrie pour les CDU, assure la surveillance de l'ensemble du parc et met en œuvre des flux de travail complets, de l'alarme à la résolution. Pour les opérateurs, cela signifie que le refroidissement liquide fonctionne comme un service géré et observable, au même titre que les autres composants d'infrastructure. L'objectif est d'améliorer la réactivité, de simplifier la gestion des incidents et de garantir la disponibilité à mesure que les systèmes de refroidissement liquide se déploient sur plusieurs sites et que les parcs de serveurs GPU PCIe s'accroissent.
Ensemble, OmniTherm et HyperCool Cloud permettent à ZutaCore de relever les défis matériels et opérationnels liés à la mise à l'échelle des plateformes d'IA basées sur PCIe grâce à un refroidissement liquide biphasique sans eau.




Amazon