액체 냉각과 효율적인 SSD 관리를 결합하면 성능과 저장 밀도를 확장하려는 데이터 센터에 미래로 나아갈 길을 제공합니다.
데이터 센터가 더 높은 에너지 효율성을 위해 노력함에 따라, 특히 AI 워크로드의 요구 사항과 함께, 많은 회사가 성능을 최적화하고 에너지 소비를 관리하기 위해 액체 냉각으로 전환하고 있습니다. 액체 냉각은 고성능 서버에서 발생하는 열을 효율적으로 관리하여 기존 공기 냉각과 관련된 에너지 집약적 비용 없이 최대 용량으로 작동할 수 있습니다. Solidigm의 고밀도 SSD는 이러한 환경에 이상적이며 뛰어난 테라바이트 대 와트 효율성을 제공합니다.
AI가 많은 데이터 센터 운영자에게 액체 냉각을 고려하도록 강요하는 반면, 그 영향은 훨씬 더 멀리까지 미칩니다. 이전 보고서에서 우리는 액체 냉각 효과 2U Dell PowerEdge R760에서 CoolIT의 직접 액체 냉각(DLC)은 팬 속도를 낮춰 서버 에너지 소비를 크게 줄였고, 전력을 200와트 절감했습니다. 이 테스트는 전적으로 CPU 성능에 집중했습니다. 이번에는 SSD가 서버 전력 소비에 미치는 영향을 이해하기 위해 스토리지 중심적인 모습을 살펴보고자 했습니다.
NVMe 활성 전원 상태는 무엇입니까?
NVMe 전원 상태는 미리 정의된 상태입니다. NVMe 장치가 전력 소비와 성능을 관리하기 위해 전환할 수 있는 것입니다. NVMe 사양은 최대 32개의 전력 상태를 허용하며, 각각은 최대 전력 소비, 진입 지연(ENLAT), 종료 지연(EXLAT) 및 상대적 성능 값으로 특징지어집니다. 이러한 전력 상태는 작동 상태와 비작동 상태로 구분됩니다. 작동 전력 상태 또는 P-States는 장치가 I/O 작업을 처리할 수 있도록 합니다. 비작동 상태 또는 F-States는 장치가 유휴 상태이고 I/O 작업을 처리하지 않을 때 사용됩니다.
이러한 전원 상태를 관리하는 것은 NVMe 장치의 전원 효율성을 최적화하는 데 매우 중요합니다. 특히, 전력 소비가 중요한 문제인 에지 장치 및 국제 우주 정거장의 SSD와 같은 특수 애플리케이션의 경우 더욱 그렇습니다. 예를 들어, NVMe 사양에는 APST(Autonomous Power State Transition)와 같은 기능이 포함되어 있어 장치가 현재 사용량과 열 조건에 따라 전원 상태 간에 자동으로 전환할 수 있습니다. 이를 통해 성능과 전력 소비의 균형을 맞춰 원격 또는 제한된 환경에서 안정적인 작동을 보장합니다. 런타임 D3(RTD3) 지원을 통해 장치가 제로 전력 유휴 상태로 전환되어 장치가 사용되지 않을 때 에너지를 더욱 절약할 수 있습니다.
NVMe 전원 상태는 전력 효율성과 열 관리가 가장 중요할 때 특히 유용합니다. 예를 들어, 에지 디바이스에서 유휴 상태일 때 저전력 상태로 빠르게 전환할 수 있는 기능은 에너지 소비를 크게 줄일 수 있으며, 이는 전력 가용성이 제한된 원격 또는 혹독한 환경에서 작동하는 디바이스에 매우 중요합니다. 이는 PCIe Active State Power Management(ASPM) 및 L1.1 및 L1.2와 같은 저전력 상태와 같은 기능을 통해 달성되며, 이는 전력 소비를 최소 수준으로 줄입니다. 제한적이고 통제된 환경으로 인해 ISS에서 전력 및 열 출력을 관리하는 것이 중요합니다. NVMe 전원 상태는 SSD의 전력 소비를 조절하여 열 설계 전력(TDP)을 관리하고 전체 에너지 예산을 최적화하여 SSD가 과열되지 않고 효율적으로 작동하도록 보장하는 데 도움이 될 수 있습니다.
이러한 특수 환경에서 NVMe 전원 상태는 NVMe 장치의 전력 소비를 관리하는 유연하고 효율적인 방법을 제공합니다. 이러한 상태를 활용함으로써 장치는 성능과 전력 효율성을 균형 있게 유지할 수 있어 엣지 컴퓨팅에서 우주 임무에 이르기까지 다양한 애플리케이션에 적합합니다. 실시간 조건에 따라 전력 상태를 동적으로 조정할 수 있는 기능을 통해 NVMe 장치는 에너지 효율성과 열 관리를 최적화하는 동시에 다양한 환경의 다양한 요구 사항을 충족할 수 있습니다.
NVMe 전원 상태 외에도 복합 온도 및 터치 온도 개념은 새로운 엔터프라이즈 SSD에서 NVMe SSD의 열 성능을 관리하는 데 중요한 역할을 합니다. 터치 온도는 SSD의 외부 케이스 온도를 나타냅니다. Solidigm은 새로운 더 높은 터치 온도 표준을 수용하는 데 앞장서 왔습니다. 예를 들어 Solidigm D5-P5336의 공장 설정 터치 온도는 80°C입니다. 이 더 높은 터치 온도 한계 덕분에 SSD를 더 낮은 공기 흐름으로 냉각하거나 더 높은 주변 온도에서 작동할 수 있습니다. 이러한 유연성 덕분에 데이터 센터는 냉각 전략을 최적화하고 전반적인 열 관리를 개선하여 냉각 비용을 줄이고 SSD의 안정성과 수명을 향상시킬 수 있습니다.
NVMe 활성 전원 상태 관리
Ubuntu 22.04를 실행하는 Linux 테스트 환경에서 NVMe 툴셋을 사용하여 드라이브를 폴링하여 D5-P5336의 전원 상태를 보고 변경할 수 있습니다. 아래에서 볼 수 있듯이 드라이브는 상태 0,1, 2, 0를 지원하며, 2단계가 가장 제한이 적고 XNUMX단계가 가장 제한적입니다.
Solidigm 61.44 TB D5-P5336의 경우 PS0은 25W, PS1은 15W, PS2는 10W입니다. 드라이브는 약 5.5W에서 유휴 상태이므로 전원 모드를 높일 때마다 SSD는 NAND 읽기 및 쓰기 작업에 전념할 수 있는 전력 오버헤드가 점점 줄어듭니다. 쓰기 작업은 NAND에서 읽는 것보다 NAND에 쓰는 데 더 많은 전력을 사용하므로 가장 큰 타격을 입습니다.
Solidigm D5-P5336 SSD의 현재 전원 상태를 확인하는 명령은 아래와 같습니다. 현재 값인 00000000은 드라이브가 PS0에 있음을 나타내며, 이는 가장 높은 25W 모드입니다.
비슷한 명령이 전원 상태를 변경하기 위해 발행되며, 마지막 숫자는 SSD가 들어가기를 원하는 전원 모드를 나타냅니다. 예를 들어, 다음 명령은 Soldigim D0-P5 SSD에서 전원 모드를 PS5336으로 설정합니다. 전원 모드 1 또는 2를 사용하는 경우—-value= 숫자를 올바른 전원 모드에 맞게 변경합니다.
성능에 대한 전력 상태의 영향
Solidigm D5-P5336 61.44TB SSD에서 전원 상태의 전력 영향과 성능 영향을 측정하기 위해 Dell PowerEdge R760에 24개의 SSD를 장착했습니다. Ubuntu와 FIO 워크로드 생성기를 실행하여 모든 SSD에서 일관된 워크로드를 쉽게 실행하고 전원 모드를 즉시 업데이트할 수 있었습니다.
우리는 서버의 iDRAC9 온보드 관리 시스템 내부에 있는 Dell의 온보드 전원 모니터링을 사용하여 시스템 수준의 전원을 모니터링했습니다.
우리는 각 드라이브에서 128K 블록 크기를 사용하여 순차적 읽기 및 쓰기 대역폭 워크로드에 집중한 다음 모든 24개 SSD에서 집계 성능을 측정했습니다. 760개 NVMe 베이가 있는 이 특정 Dell PowerEdge R24 구성은 직접 연결된 NVMe 베이가 아닌 PCIe 스위치를 활용한다는 점에 유의해야 합니다. 따라서 측정된 총 대역폭은 드라이브에 도달하기 전에 사용 가능한 PCIe 스위치 레인을 포화시킵니다. 이는 Soldigim P5536 사양 시트와 비교하여 측정한 총 읽기 성능에 영향을 미치지만 집계 쓰기 속도는 모두 해당 제한 이하였습니다.
총 와트 | 쓰기 속도 | GB/s 읽기 | 와트 베이스 위에 |
와트/드라이브 (시스템 오버헤드 포함) |
|
---|---|---|---|---|---|
유휴 드라이브 없음 | 462 | - | - | - | - |
유휴 드라이브 설치됨 | 594 | - | - | 132 | 5.5 |
24x 순차 읽기 PS0 | 858 | - | 109GB / s | 396 | 16.5 |
24x 순차 읽기 PS1 | 858 | - | 105GB / s | 396 | 16.5 |
24x 순차 읽기 PS2 | 759 | - | 79.8GB / s | 297 | 12.375 |
24x 순차 쓰기 PS0 | 1089 | 82.5GB / s | - | 627 | 26.125 |
24x 순차 쓰기 PS1 | 825 | 34.4GB / s | - | 363 | 15.125 |
24x 순차 쓰기 PS2 | 726 | 17.3GB / s | - | 264 | 11 |
공랭식 플랫폼을 직접 액체 냉각으로 전환하는 이점에 대한 기사를 다시 살펴보면 CPU와 관련하여 약간의 성능 향상을 보였지만 전력도 200W 절약했습니다. 전력은 모든 사용 가능한 리소스를 GPU와 하이엔드 CPU에 자주 할당하는 새로운 AI 중심 서버에서 귀중한 상품입니다. 공랭식의 전력 예산 한도에 도달하거나 그에 가까운 데이터 센터에서 DLC로 전환하면 전력 예산을 구매하여 공랭식 서버와 동일한 전력 풋프린트로 더 많은 SSD를 서버에 채울 수 있습니다.
200W의 전력 절감은 스토리지 밀도와 관련하여 많은 도움이 될 수 있습니다. 이러한 절감을 통해 읽기 집약적 워크로드에 맞춰 작업 부하를 조정하는 경우 액체 냉각 서버에서 공랭 서버에 비해 스토리지 공간을 12개에서 24개로 두 배로 늘릴 수 있습니다. Solidigm D5-P5336을 사용하면 이 24베이 서버의 스토리지 용량이 액체 루프 덕분에 737TB에서 1,474TB로 증가했습니다. 작업 부하가 쓰기 중심이라면 서버에 약 24개의 SSD를 더 장착할 수 있습니다. 그러나 이러한 수치는 기본 전력 모드를 기준으로 하므로 최상위에서 쓰기 성능을 약간 깎을 의향이 있다면 쓰기 중심 워크로드와 성능이 저하된 XNUMX개의 SSD로 서버를 쉽게 채울 수 있습니다.
결론
Solidigm D5-P5336 SSD를 테스트하면서 NVMe 전원 상태를 관리하면 성능에 큰 영향을 미치지 않으면서도 전력 효율성에 상당한 영향을 미칠 수 있다는 것을 알게 되었습니다. 에너지 효율성을 극대화하려는 데이터 센터 운영자는 이러한 전원 상태를 활용하여 더 높은 스토리지 밀도를 달성하거나 운영 비용을 줄일 수 있으며, 특히 전력이 매우 중요한 AI 중심 환경에서 그렇습니다. Solidigm의 고밀도 SSD는 이를 위해 잘 자리 잡았으며, 특히 최신 액체 냉각 기술을 사용하여 뛰어난 테라바이트 대 와트 효율성을 제공합니다.
우리의 연구 결과에 따르면 전원 상태를 약간만 조정해도 상당한 전력 절감이 가능하며, 이는 전력 가용성에 제한을 받는 환경에서 매우 중요할 수 있습니다. 서버의 전체 전력 소비를 최적화하면 스토리지 밀도가 향상되고 보다 지속 가능한 데이터 센터 운영이 지원됩니다.
전력 관리가 점점 더 중요해지고 있습니다. 특히 AI 기반 워크로드에서 현대 서버가 한계에 도달했습니다. 액체 냉각과 효율적인 SSD 관리 옵션을 결합하면 전력 예산을 초과하지 않고도 성능과 스토리지 밀도를 확장하려는 데이터 센터에 앞으로 나아갈 길을 제공합니다.
OCP 2024에서 이러한 기술의 전체 데모를 라이브로 볼 수 있습니다. 액체 냉각과 Solidigm의 SSD가 현대 데이터 센터에서 에너지 효율성의 초석이 될 수 있는 방법을 보여드리겠습니다.
이 보고서는 Solidigm이 후원합니다. 이 보고서에 표현된 모든 견해와 의견은 고려 중인 제품에 대한 우리의 공정한 견해를 기반으로 합니다.
StorageReview에 참여
뉴스레터 | 유튜브 | 팟캐스트 iTunes/스포티 파이 | 인스타그램 | 트위터 | 틱톡 서비스 | RSS 피드