코미노 그란도 H100 서버는 AI 및 HPC 워크로드를 위해 설계된 2개의 NVIDIA H100 GPU, 액체 냉각 시스템, AMD Threadripper PRO 7995WX를 제공합니다.
Comino Grando H100 서버는 이 회사의 라인업에서 가장 최근에 출시된 제품입니다. 정제된 액체 냉각 정밀도로 전력을 필요로 하는 사용자를 대상으로 합니다. 이 Grando 구성은 다양한 하드웨어와 디자인 개선 사항을 도입합니다. 그러나 AI와 머신 러닝부터 복잡한 데이터 분석 및 시각적 렌더링에 이르기까지 수요가 많은 애플리케이션에는 여전히 적합합니다.
새로운 H100 구성에서 Comino는 고성능 CPU인 AMD Ryzen Threadripper PRO 7995WX를 선택했습니다. 이 CPU는 고코어, 고스레드 컴퓨팅 작업에 탁월한 성능을 발휘합니다.
이 96코어 CPU는 병렬 처리에 이상적이며, 사용자는 광범위한 데이터 세트를 실행하거나 더 많은 코어와 스레드에서 번창하는 멀티스레드 애플리케이션을 처리할 수 있습니다. ASUS SAGE WRX90 마더보드는 이 CPU를 보완하고 H100의 향상된 메모리 및 연결 요구 사항을 지원하는 아키텍처를 제공합니다.
Comino Grando H100: 프로세서 및 메모리 옵션
96개 코어/192개 스레드, Zen 4 아키텍처, 고급 5nm 기술을 탑재하여 3D 렌더링, 비디오 편집, 복잡한 시뮬레이션과 같은 작업을 쉽게 처리할 수 있도록 제작되었습니다. 2.5GHz(최대 5.1GHz까지 부스트)의 기본 클럭을 갖추고 있어 멀티스레드 및 싱글스레드 작업에 이상적입니다. 2개 채널에 걸쳐 최대 5TB의 DDR90 메모리를 지원하여 방대한 데이터 세트에 대한 광대한 대역폭을 제공합니다. 게다가 WRX5 플랫폼과의 호환성은 고속 스토리지 및 GPU 설정을 위한 충분한 PCIe GenXNUMX 레인을 의미합니다.
이 Grando 모델의 GPU 설정은 각각 100GB의 메모리를 자랑하는 두 개의 NVIDIA H94 NVL GPU를 특징으로 합니다. 이 듀얼 GPU 구성은 인상적인 188GB의 GPU 메모리를 제공하여 까다로운 애플리케이션의 성능을 향상시킵니다. 특히 GPU 메모리 제한이 생산성에 영향을 미칠 수 있는 인공 지능, 3D 렌더링 및 과학 시뮬레이션 분야의 전문가에게 유용합니다. Grando 모델은 대규모 데이터 세트와 복잡한 작업을 효율적으로 처리하기 위해 강력한 컴퓨팅 리소스가 필요한 사람들에게 탁월한 선택입니다. 그리고 Comino의 액체 냉각 덕분에 이러한 고전력 GPU는 단일 슬롯 폼 팩터에서 작동하여 기존의 공랭 시스템에서는 따라올 수 없는 밀도를 달성할 수 있습니다.
NVIDIA H100 NVL GPU 사양
FP64 | 30테라플롭스 |
FP64 텐서 코어 | 60테라플롭스 |
FP32 | 60테라플롭스 |
TF32 텐서 코어* | 835테라플롭스 |
BFLOAT16 텐서 코어* | 1,671테라플롭스 |
FP16 텐서 코어* | 1,671테라플롭스 |
FP8 텐서 코어* | 3,341테라플롭스 |
INT8 텐서 코어* | 3,341 상단 |
GPU 메모리 | 94GB |
GPU 메모리 대역폭 | 3.9TB/초 |
디코더 | 7 NVDEC 7JPEG |
최대 열 설계 전력(TDP) | 350-400W(설정 가능) |
다중 인스턴스 GPU | 각각 최대 7 MIGS @ 12GB |
폼 팩터 | PCIe 듀얼 슬롯 공랭식 |
상호 연결 | 엔비디아 NV링크: 600GB/s PCIe Gen5: 128GB/s |
서버 옵션 | 1~8개 GPU를 탑재한 파트너 및 NVIDIA 인증 시스템 |
NVIDIA AI Enterprise | 포함 사항 |
사용자는 Kingston Fury(낮은 대기 시간의 작업에 이상적)의 고속 데스크톱급 메모리 또는 엔터프라이즈급 안정성과 메모리 집약적 워크로드를 위한 Kingston Server Premier의 대용량 512GB 중에서 선택할 수 있습니다.
코미노 그란도 H100: 냉각 및 전력
이전 Grando 반복과 마찬가지로, 여기의 디자인 철학은 성능만큼이나 실용성에 관한 것입니다. 고급 내부 냉각 시스템은 무거운 작업 부하에서도 모든 구성 요소를 시원하게 유지하는 맞춤형 워터 블록 설정을 특징으로 합니다.
이 액체 냉각 시스템은 GPU가 열 조절 없이 최고 성능을 유지하는 동시에 소음 수준을 낮추도록 보장합니다. 크고 시끄러운 팬에 의존하는 기존 서버 빌드와 달리 Grando의 액체 냉각 솔루션은 효율적이고 잘 설계되었습니다. 냉각 아키텍처에는 누수나 유출 위험을 최소화하면서 쉽게 서비스할 수 있는 드립리스 퀵 디스커넥트 피팅이 있는 중앙 집중식 물 분배 블록이 포함됩니다.
1600개의 별도 100W PSU를 갖춘 Grando H7995은 전원 공급이 중단되어도 가동 시간을 유지할 수 있으며, 이는 다운타임을 어떻게든 피해야 하는 기업 환경에 필수적인 기능입니다. 이러한 전원 공급 장치는 100WX 및 듀얼 HXNUMX GPU의 극한 부하에서도 일관된 전력 공급을 보장하기 위해 원활하게 함께 작동합니다.
코미노 그란도 H100: 디자인 및 빌드
전력과 냉각 외에도 Comino Grando H100의 레이아웃은 중요한 구성 요소에 쉽게 접근할 수 있도록 구성되어 있습니다. 우리는 이전 글에서 디자인과 빌드를 자세히 검토했습니다. 코미노 그란도 리뷰그러니 주요 내용을 다루도록 하겠습니다.
전면 패널에는 오디오 잭, 여러 USB 포트, 네트워크 연결 옵션을 포함한 포괄적인 I/O 배열이 있어 랙 장착 환경과 독립형 사용에 적합합니다. 내장 LED 디스플레이는 단순한 장식적인 터치 이상입니다. 공기 및 냉각수 온도, 팬 속도, 펌프 상태를 포함한 실시간 원격 측정 데이터를 제공합니다.
백라이트 메뉴 버튼을 사용하면 사용자가 이 정보를 쉽게 탐색할 수 있습니다. 또한 모니터링 및 조정을 위한 보다 심층적인 설정 및 진단에 액세스할 수 있어 정기적인 유지 관리를 위한 사용성과 편의성이 향상됩니다.
내부적으로 각 구성 요소는 운송 중 움직임을 방지하도록 배열되어 있으며, GPU 및 SSD와 같은 민감한 부품 주변에 추가 보강이 되어 있습니다. 이는 Grando가 서버를 내구성 있게 안전하게 배송하려는 헌신을 반영합니다.
코미노 서버는 유지 관리 및 서비스도 쉽습니다. 케이블, 튜브 및 구성 요소가 매우 깔끔하게 라우팅되어 내부가 깨끗하고 거의 모듈식인 것처럼 보입니다. 이는 또한 공기 흐름과 유지 관리 용이성에 실용적인 역할을 하여 나머지 설정을 방해하지 않고 모든 구성 요소를 격리하고 처리하기가 더 쉽습니다.
Comino Grando 서버 H100 성능
이제 이러한 빌드 선택이 실제 성능에 어떤 영향을 미치는지 살펴보겠습니다. 이 설정을 올해 초에 검토한 두 가지 Comino Grando 모델과 비교하고 계산 및 그래픽 작업의 특정 벤치마크를 논의합니다. 또한 이를 슈퍼마이크로 AS-2115HV-TNRT.
테스트된 시스템
당사의 그란도 서버 H100 빌드는 7995개 코어와 96개 스레드를 제공하는 AMD Threadripper PRO 192WX 프로세서를 특징으로 하며, 이는 이 라인업에서 가장 코어 밀도가 높은 CPU입니다. 이 시스템은 고대역폭 워크로드와 집중적인 멀티태스킹을 위해 설계된 512GB Kingston Server Premier DDR5 메모리로 구동됩니다. GPU 설정에는 각각 100GB 메모리가 있는 두 개의 NVIDIA H94 NVL GPU가 포함됩니다.
The 슈퍼마이크로 AS-2115HV-TNRT 시스템은 동일한 AMD Threadripper PRO 7995WX를 사용하지만 520GB DDR5-4800 ECC 메모리와 6000개의 NVIDIA RTX 7450 Ada GPU를 포함합니다. 이 GPU는 하이엔드 그래픽 렌더링 및 전문적인 시각화 작업을 지향합니다. Supermicro 시스템에는 Micron 3.2 Max XNUMXTB NVMe도 있습니다.
The Grando 서버 올해 초에 리뷰한 AMD Threadripper PRO 5995WX 프로세서, 64코어 128스레드 CPU, 512GB RAM, 4090개의 NVIDIA RTX 4090 GPU가 특징입니다. 이 구성은 그래픽 성능에 중점을 두었으며, RTX 4은 렌더링 및 범용 GPU 워크로드에 높은 처리량을 제공합니다. 이 시스템에는 1600개의 2W PSU와 XNUMXTB NVMe SSD도 포함되었습니다.
다른 코미노 시스템은 3975W 전력을 사용합니다. 그란도 워크스테이션, 32개의 코어와 64개의 스레드를 제공합니다. GPU 구성은 100개의 NVIDIA A512 GPU로 구성되어 컴퓨팅 중심 워크로드와 시각화 작업 간의 균형을 강조합니다. 2GB RAM과 XNUMXTB NVMe SSD와 페어링되어 최신 시스템보다 컴퓨팅 밀도가 낮지만 까다로운 워크플로를 처리할 수 있습니다.
이전에 검토한 Grando Server는 특히 렌더링 및 시각화 작업과 관련된 GPU 중심 벤치마크에서 더 우수한 성능을 제공할 가능성이 높다는 점에 유의하는 것이 중요합니다. RTX 4090 GPU는 하이엔드 그래픽 워크로드를 위해 설계되어 이러한 애플리케이션에 상당한 컴퓨팅 파워를 제공합니다.
Nvidia H100 GPU는 디스플레이 출력과 소비자 기능을 의도적으로 생략하여 데이터 센터 워크로드에만 집중하는 특수 목적의 컴퓨팅 가속기입니다. Consumer 및 Workstation과 달리 H100은 헤드리스 서버 작동을 위해 설계되었기 때문에 디스플레이 포트나 Windows 그래픽 드라이버가 포함되지 않습니다. NVENC 인코딩 하드웨어가 없기 때문에 컴퓨팅 전용 특성이 더욱 강조되어 미디어 인코딩보다는 AI 및 HPC 작업에 다이 공간을 최적화합니다.
벤치 마크 결과
블렌더 4.0
첫 번째 벤치마크는 모델링, 애니메이션, 시뮬레이션 및 렌더링 프로젝트를 위한 포괄적인 오픈소스 3D 제작 제품군인 Blender입니다. Blender 벤치마크는 복잡한 장면을 렌더링하는 시스템의 성능을 평가하는데, 이는 시각 효과, 애니메이션 및 게임 개발 분야의 전문가에게 중요한 측면입니다. 이 벤치마크는 고급 그래픽 처리 및 계산 작업을 위해 설계된 서버와 워크스테이션에 적합한 CPU 및 GPU 렌더링 기능을 측정합니다.
여기에서 Grando H100 Server 구성은 AMD Threadripper PRO 7995WX의 높은 코어 수로 인해 CPU 기반 테스트에서 탁월한 성과를 보였습니다. Monster, Junkshop, Classroom 장면과 같은 렌더링 작업에서 Supermicro AS-2115HV-TNRT와 같은 다른 시스템을 지속적으로 앞지릅니다. 그러나 GPU 테스트는 그래픽 렌더링 워크로드에서 H100 GPU의 한계를 보여줍니다. H100 구성이 괜찮은 결과를 제공하는 반면, RTX 6000 Ada 또는 RTX 4090과 같이 보다 일반적인 용도의 GPU가 있는 시스템이 훨씬 더 나은 성능을 보입니다. 이는 H100이 그래픽 작업보다는 계산 작업에 특화되어 있음을 강조합니다.
믹서기 (분당 샘플 수, 높을수록 좋음) |
그란도 서버 (AMD 7995WX, 2x H100) |
슈퍼마이크로 AS-2115HV-TNRT(AMD 7995WX, 4x RTX 6000 Ada) | Supermicro AS-2115HV-TNRT 오버클럭(AMD 7995WX, 4x RTX 6000 Ada) |
블렌더 4.2 CPU 테스트 | |||
몬스터 | 1,352.19 | 931 | 969 |
정크샵 | 969.44 | 682 | 640 |
교실 | 683.30 | 451 | 472 |
블렌더 4.2 GPU 테스트 | |||
몬스터 | 2,521 | 5,745 | N/A |
정크샵 | 1,888.28 | 2,698 | N/A |
교실 | 1,401.96 | 2,824 | N/A |
이전에 검토한 Grando 서버는 Blender 버전 4.0에서 테스트되었습니다. 결과는 다음과 같습니다.
믹서기 (분당 샘플 수, 높을수록 좋음) |
그란도 서버 (TR W5995WX, 512GB, 6x 4090) |
그란도 워크스테이션 (TR 3975WX, 512GB, 4x A100) |
블렌더 4.0 CPU 테스트 | ||
몬스터 | 568.02 | 334.40 |
정크샵 | 386.53 | 231.90 |
교실 | 293.91 | 174.21 |
블렌더 4.0 GPU 테스트 | ||
몬스터 | 5,880.71 | 1,656.34 |
정크샵 | 2,809.36 | 1,137.73 |
교실 | 2,895.54 | 953.46 |
Blackmagic RAW 속도 테스트
Blackmagic RAW Speed Test는 비디오 제작 및 편집 시 서버와 워크스테이션에 필수적인 고품질 비디오 포맷의 처리 속도를 측정합니다. 시스템이 RAW 비디오 파일을 관리하는 방법을 평가하여 미디어 제작 환경의 작업 흐름 효율성과 생산성에 영향을 미칩니다.
Blackmagic RAW 속도 테스트에서 Grando Server H100은 8K RAW 비디오 디코딩에서 강력한 CPU 성능을 보여주지만, 이 시스템에서 더 작은 T1000이 처리했기 때문에 CUDA 기반 활동에서는 부족합니다. RTX 4090 및 RTX 6000 Ada와 같은 GPU가 있는 시스템은 Windows에서 DirectX 지원을 제공하는 반면, 엔터프라이즈 중심 GPU는 기본적으로 해당 지원을 제공하지 않습니다.
Blackmagic RAW 속도 테스트 | 그란도 서버 (AMD 7995WX, 2x H100) |
그란도 서버 (TR W5995WX, 512GB, 6x 4090) |
그란도 워크스테이션 (TR 3975WX, 512GB, 4x A100) |
슈퍼마이크로 AS-2115HV-TNRT(AMD 7995WX, 4x RTX 6000 Ada) |
8K CPU | 156의 FPS | 132의 FPS | 135의 FPS | 132의 FPS |
8K 쿠다 | 144의 FPS | 345의 FPS | 309의 FPS | 664의 FPS |
7-zip 압축
7-zip 압축 벤치마크는 대규모 데이터 세트를 관리하고 스토리지를 최적화하는 데 중요한 데이터 압축 및 압축 해제 처리 시 시스템의 효율성을 테스트합니다. 이 벤치마크는 데이터 조작의 속도와 효율성이 중요한 데이터 집약적 작업에서 서버와 워크스테이션의 성능을 반영합니다.
여기, 그란도 서버 테스트된 시스템 중에서 가장 좋은 압축 및 압축 해제 결과를 제공했습니다. 그러나 전반적인 효율성에서 오버클럭된 Supermicro AS-2115HV-TNRT 구성이 근접합니다.
7-Zip 압축 벤치마크(높을수록 좋음) | 그란도 서버 (AMD 7995WX, 2x H100) |
그란도 서버 (TR W5995WX, 512GB, 6x 4090) |
그란도 워크스테이션 (TR 3975WX, 512GB, 4x A100) |
슈퍼마이크로 AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) |
Supermicro AS-2115HV-TNRT – 오버클럭 (AMD 7995WX, 4x RTX 6000 Ada) |
압축 | |||||
현재 CPU 사용량 | 5,582% | 3,379% | 3,439% | 5,571% | 6,456% |
현재 등급/사용 | 8.627 깁스 | 7.630 깁스 | 7.094 깁스 | 7.835 깁스 | 9.373 깁스 |
현재 평가 | 481.539 깁스 | 257.832 깁스 | 243.994 깁스 | 436.490 깁스 | 605.097 깁스 |
결과 CPU 사용량 | 5,561% | 3,362% | 3,406% | 5,599% | 6,433% |
결과 등급/사용 | 8.631 깁스 | 7.697 깁스 | 7.264 깁스 | 7.863 깁스 | 9.420 깁스 |
결과 등급 | 480.006 깁스 | 258.756 깁스 | 247.396 깁스 | 440.288 깁스 | 605.984 깁스 |
압축 해제 | |||||
현재 CPU 사용량 | 6,270% | 6,015% | 6,286% | 6,223% | 6,343% |
현재 등급/사용 | 7.411 깁스 | 5.585 깁스 | 5.434 깁스 | 7.215 깁스 | 9.810 깁스 |
현재 평가 | 464.701 깁스 | 335.958 깁스 | 341.599 깁스 | 449.012 깁스 | 622.250 깁스 |
결과 CPU 사용량 | 6,238% | 6,053% | 6,269% | 6,213% | 6,312% |
결과 등급/사용 | 7.589 깁스 | 5.603 깁스 | 5.468 깁스 | 7.165 깁스 | 9.834 깁스 |
결과 등급 | 473.375 깁스 | 339.171 깁스 | 342.766 깁스 | 445.130 깁스 | 620.749 깁스 |
총 평점 | |||||
총 CPU 사용량 | 5,900% | 4,708% | 4,837% | 5,906% | 6,373% |
총 등급/사용량 | 8.110 깁스 | 6.650 깁스 | 6.366 깁스 | 7.514 깁스 | 9.627 깁스 |
총 평점 | 476.690 깁스 | 298.963 깁스 | 295.081 깁스 | 442.709 깁스 | 613.366 깁스 |
Y-크런처
Y-Cruncher는 Pi를 수조 자리까지 정확하게 계산하여 복잡한 수학 연산을 처리하는 시스템의 능력을 테스트하는 계산 벤치마크입니다. 이 벤치마크는 특히 집중적인 숫자 처리가 필요한 과학 연구 및 시뮬레이션에 사용되는 서버 및 워크스테이션의 컴퓨팅 성능을 나타냅니다.
Y-Cruncher에서 Grando Server H100 구성은 모든 숫자 수준에서 Pi를 계산하는 총 계산 시간에서 뛰어납니다. AMD Threadripper PRO 7995WX의 높은 코어 수는 이 시스템이 CPU 집약적 작업에서 선두를 차지하도록 보장합니다. 그러나 오버클럭된 Supermicro AS-2115HV-TNRT 구성은 격차를 크게 줄여 이러한 워크로드에 대한 최적화된 성능 튜닝의 이점을 보여줍니다.
Y-Cruncher(총 계산 시간) | 그란도 서버 (AMD 7995WX, 2x H100) |
그란도 서버 (TR W5995WX, 512GB, 6x 4090) |
그란도 워크스테이션 (TR 3975WX, 512GB, 4x A100) |
슈퍼마이크로 AS-2115HV-TNRT(AMD 7995WX, 4x RTX 6000 Ada) | Supermicro AS-2115HV-TNRT – 오버록(AMD 7995WX, 4x RTX 6000 Ada) |
1억 자릿수 | 7.523 (초) | 11.023 (초) | 11.759 (초) | 8.547 초 | 6.009 초 |
2.5억 자릿수 | 15.392 (초) | 28.693 (초) | 32.073 (초) | 17.493 초 | 13.838 초 |
5억 자릿수 | 29.420 (초) | 61.786 (초) | 69.869 (초) | 33.584 초 | 27.184 초 |
10억 자릿수 | 60.089 (초) | 130.547 (초) | 151.820 (초) | 67.849 초 | 58.283 초 |
25억 자릿수 | 214.246 (초) | 353.858 (초) | 425.824 (초) | 182.880 초 | 161.913 초 |
50억 자릿수 | 594.939 (초) | 788.912 (초) | 971.086 (초) | 417.853 초 | N/A |
와이-크런처 BBP
이 y-cruncher 벤치마크는 Bailey-Borwein-Plouffe(BBP) 공식을 사용하여 파이의 거대한 16진수 숫자를 계산하고, CPU의 전체 계산 시간, 사용률, 다중 코어 효율성을 측정합니다.
y-cruncher BBP 벤치마크는 Grando Server H100이 방대한 계산 작업을 처리하는 데 얼마나 효율적인지 보여줍니다. 모든 테스트에서 Grando Server는 좋은 성능을 보이며 1 BBP와 10 BBP 계산에서 가장 빠른 총 계산 시간을 달성했습니다. 100 BBP 테스트에서 멀티 코어 효율성은 98.68%로 Supermicro AS-2115HV-TNRT 시스템보다 약간 낮지만 여전히 매우 효과적입니다. 오버클럭된 Supermicro 구성은 모든 BBP 레벨에서 총 시간 면에서 표준 Supermicro를 앞지릅니다. 그래도 Grando H100은 최적화된 멀티스레딩 기능과 빠른 컨텍스트 전환 덕분에 소규모 BBP 작업의 실제 계산 속도에서 지속적으로 앞서고 있습니다.
그러나 CPU 활용도에 관해서는 Supermicro 시스템이 약간 더 나은 코어 사용 효율성을 보여주었으며, 이는 지속적인 병렬 작업 부하에 대해 아키텍처를 더 효과적으로 활용할 수 있음을 나타냅니다.
기준 | 그란도 서버 (AMD 7995WX, 2x H100) |
슈퍼마이크로 AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) |
Supermicro AS-2115HV-TNRT – 오버록 (AMD 7995WX, 4x RTX 6000 Ada) |
1BBP |
|
|
|
10BBP |
|
|
|
100BBP |
|
|
|
Geekbench 6
Geekbench 6은 단일 코어 및 멀티 코어 기능과 그래픽 처리 능력을 포괄하는 CPU 및 GPU의 계산 성능을 측정합니다. 이 벤치마크는 시뮬레이션, 데이터 분석, 그래픽 렌더링을 포함한 다양한 작업에서 서버와 워크스테이션의 전반적인 컴퓨팅 효율성을 평가하는 데 필수적입니다.
Geekbench 6 결과는 Grando Server H100이 96코어 프로세서 덕분에 멀티코어 CPU 작업에서 최고 수준의 성능을 발휘한다는 것을 보여줍니다. 그러나 GPU 점수에서 H100 구성은 RTX 2115 Ada GPU를 활용하여 뛰어난 그래픽 성능을 제공하는 Supermicro AS-6000HV-TNRT보다 뛰어납니다.
Geekbench 6(높을수록 좋음) | 그란도 서버 (AMD 7995WX, 2x H100) |
Grando 서버(TR W5995WX, 512GB, 6x 4090) | Grando 워크스테이션(TR 3975WX, 512GB, 4x A100) | 슈퍼마이크로 AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) |
CPU 단일 코어 | 2,893 | 2,127 | 2,131 | 2,875 |
CPU 멀티 코어 | 28,600 | 21,621 | 20,411 | 24,985 |
GPU | 298,220 | 294,894 | 193,447 | 307,510 |
Cinebench R23
Cinebench R23은 단일 코어 및 멀티 코어 성능에 중점을 두고 CPU의 렌더링 성능을 측정합니다. 이는 서버나 워크스테이션이 콘텐츠 제작, 3D 렌더링 및 기타 CPU 집약적인 작업에서 얼마나 잘 수행될 수 있는지 평가하기 위한 필수 벤치마크입니다. MP 비율(멀티 코어 성능 비율)은 시스템이 다중 코어를 얼마나 효과적으로 활용하는지에 대한 통찰력을 추가로 제공합니다.
H100 구성은 Threadripper PRO 7995WX의 방대한 코어 수를 활용하여 멀티 코어 성능을 선도합니다. 그러나 단일 코어 성능은 다른 시스템과 동등합니다. MP 비율은 멀티 스레드 애플리케이션에서 7995WX의 확장성을 강조합니다. 그래도 이 벤치마크의 GPU 독립적 특성으로 인해 H100 구성은 GPU 관련 제한을 보이지 않아 전반적으로 경쟁력이 더 높아 보입니다.
Cinebench R23 (높을수록 좋습니다) |
그란도 서버 (AMD 7995WX, 2x H100) |
Grando 서버(TR W5995WX, 512GB, 6x 4090) | Grando 워크스테이션(TR 3975WX, 512GB, 4x A100) | 슈퍼마이크로 AS-2115HV-TNRT(AMD 7995WX, 4x RTX 6000 Ada) | Supermicro AS-2115HV-TNRT – 오버록(AMD 7995WX, 4x RTX 6000 Ada) |
CPU 멀티 코어 | 159,930 pts | 73,556 포인트 | 49,534 포인트 | 111,792 pts | 132,044 포인트 |
CPU 단일 코어 | 1,876 포인트 | 1,484 포인트 | 1,468 포인트 | 1,864 포인트 | 1,887 포인트 |
MP 비율 | 85.26 X | SR 49.56x | SR 33.75x | SR 59.98x | SR 69.99x |
GPU 직접 스토리지
이 서버에서 수행한 테스트 중 하나는 Magnum IO GPU Direct Storage(GDS) 테스트였습니다. GDS는 NVIDIA에서 개발한 기능으로, GPU가 NVMe 드라이브나 기타 고속 스토리지 장치에 저장된 데이터에 액세스할 때 CPU를 우회할 수 있도록 해줍니다. GDS는 CPU와 시스템 메모리를 통해 데이터를 라우팅하는 대신 GPU와 스토리지 장치 간의 직접 통신을 가능하게 하여 대기 시간을 크게 줄이고 데이터 처리량을 개선합니다.
GPU 직접 스토리지 작동 방식
전통적으로 GPU가 NVMe 드라이브에 저장된 데이터를 처리할 때 데이터는 GPU에 도달하기 전에 먼저 CPU와 시스템 메모리를 거쳐야 합니다. 이 프로세스는 CPU가 중개자가 되어 지연 시간을 늘리고 귀중한 시스템 리소스를 소모하기 때문에 병목 현상이 발생합니다. GPU Direct Storage는 GPU가 PCIe 버스를 통해 스토리지 장치에서 직접 데이터에 액세스할 수 있도록 하여 이러한 비효율성을 제거합니다. 이 직접 경로는 데이터 이동과 관련된 오버헤드를 줄여 더 빠르고 효율적인 데이터 전송을 가능하게 합니다.
AI 워크로드, 특히 딥 러닝과 관련된 워크로드는 매우 데이터 집약적입니다. 대규모 신경망을 훈련하려면 일반적으로 테라바이트 규모의 데이터를 처리해야 하며, 데이터 전송이 지연되면 GPU 활용도가 낮아지고 훈련 시간이 길어질 수 있습니다. GPU Direct Storage는 데이터가 가능한 한 빨리 GPU에 전달되도록 하여 유휴 시간을 최소화하고 계산 효율성을 극대화함으로써 이러한 과제를 해결합니다.
또한 GDS는 비디오 처리, 자연어 처리 또는 실시간 추론과 같이 대용량 데이터 세트를 스트리밍하는 작업 부하에 특히 유용합니다. GDS는 CPU에 대한 의존도를 줄임으로써 데이터 이동을 가속화하고 다른 작업을 위한 CPU 리소스를 확보하여 전반적인 시스템 성능을 더욱 향상시킵니다.
우리는 Comino Grando에서 광범위한 GDSIO 평가를 수행하여 서버를 철저히 테스트하고 다양한 구성을 탐색하여 다양한 시나리오에서 성능을 평가했습니다. 이러한 유형의 테스트는 워크스테이션과 같은 환경을 시뮬레이션하고 대규모 모델을 훈련하기 위한 절제 테스트 중에 기능에 대한 통찰력을 제공하기 때문에 이 수준의 서버에 필수적입니다. 저장소의 경우, 우리는 Solidigm D7-PS1010 Gen5 SSD.
테스트 구성 매트릭스
우리는 다음 매개변수의 모든 조합을 체계적으로 테스트했습니다.
- 블록 크기: 1M, 128K, 64K, 16K, 8K
- 스레드 수: 128, 64, 32, 16, 8, 4, 1
- 작업 수: 16, 8, 4, 1
- 배치 크기: 32, 16, 8, 4, 1
이 리뷰에서는 순차적 읽기 및 쓰기 처리량에 초점을 맞췄습니다. 각 GDSIO 워크로드를 여러 작업 및 배치 크기에 걸쳐 주어진 블록 크기와 스레드 수에서 수행했습니다. 보고된 수치는 각 작업 및 배치 수 조합의 평균입니다.
성능 분석
AI 워크로드, 특히 훈련 단계에서는 방대한 양의 데이터를 효율적으로 처리해야 합니다. 이러한 워크로드는 일반적으로 훈련 데이터 세트를 읽거나 모델 체크포인트를 쓸 때 처리량을 극대화할 수 있는 큰 블록 크기의 이점을 얻습니다. 포괄적인 GPU Direct Storage 기능 테스트에서 우리는 다양한 I/O 패턴과 구성에 초점을 맞춰 시스템의 성능 특성을 파악했습니다.
1M 블록 크기를 사용한 순차적 I/O 성능은 테스트 구성 중에서 인상적인 결과를 보여주었습니다. 이 시스템은 8.56GiB/s(1M 블록 크기, 배치 크기 4, IO 깊이 128, 128개 작업에 걸친 16개 스레드)의 놀라운 순차적 읽기 처리량을 달성했습니다. 이 수준의 성능은 대규모 사전 학습된 모델을 로드하거나, 학습 단계에서 광범위한 데이터 세트를 처리하거나, 컴퓨터 비전 애플리케이션을 위한 비디오 처리와 같은 순차적 데이터 스트림을 처리하는 작업 부하에 특히 유용합니다.
순차적 쓰기 작업의 경우 시스템은 7.57GiB/s(1M 블록 크기, 배치 크기 8, IO 깊이 16, 16개 작업에 걸친 8개 스레드)를 제공하므로 분산 학습 중에 빈번한 모델 검사점이 필요하거나 중간 결과를 저장하거나 배치 작업에서 처리된 데이터를 쓰는 시나리오에서 매우 효과적입니다.
결론
Comino Grando H100 서버는 회사의 라인업에 인상적인 추가 제품으로, 다른 구성에 대한 독특한 대안을 제공합니다. AMD Threadripper PRO 7995WX CPU와 512GB DDR5 메모리(최대 1TB까지 확장 가능)를 탑재한 Grando 시스템은 두 개의 NVIDIA H100 NVL GPU로 강조됩니다. 이 설정은 AI 기반 워크플로에 뛰어난 성능을 제공하지만, RTX 4090이 장착된 Grando Server와 RTX 6000 Ada가 장착된 Supermicro 구성과 같은 시스템이 앞서는 기존 렌더링 벤치마크(예: Luxmark 및 OctaneBench)에서 GPU 성능을 희생해야 합니다. 그렇긴 하지만 Blender의 멀티 코어 렌더링, 100-Zip 압축, Y-Cruncher와 같은 CPU 집약적 테스트에서 H7의 성능은 지속적으로 다른 테스트 시스템보다 우수합니다.
디자인과 관련하여 Comino Grando H100 서버는 소형 폼 팩터에 고성능 구성 요소를 수용할 수 있으며, 이는 표준 섀시에서는 종종 어려운 문제입니다. 맞춤형 Direct Liquid Cooling(DLC) 시스템 덕분에 이 서버는 듀얼 NVIDIA H100 GPU와 같은 구성을 쉽게 처리할 수 있습니다. 이 고급 냉각 솔루션은 열을 제어하고 까다로운 고성능 작업 중에도 시스템이 안정적으로 유지되도록 합니다. 이 새로운 Comino 시스템의 특히 독특한 점은 주로 소비자 등급 하드웨어를 활용하여 효율적이고 비교적 저렴한 솔루션을 만드는 방식으로, 은행을 털지 않고도 GPU 성능을 극대화하려는 전문가와 기업에 매력적인 옵션입니다.
전반적으로 Comino Grando H100은 까다로운 환경에서 AI 최적화, 계산 작업 및 안정성을 우선시하는 기업과 전문가에게 탁월한 선택입니다. 고유한 디자인과 냉각 혁신은 AI 기반 워크로드에 유연성과 성능을 제공합니다. 그러나 RTX 4090이 장착된 Grando Server 또는 RTX 6000 Ada 기반 시스템과 같은 대체 구성은 기존 GPU 렌더링에 집중하는 사용자에게 더 적합할 수 있습니다.
StorageReview에 참여
뉴스레터 | 유튜브 | 팟캐스트 iTunes/스포티 파이 | 인스타그램 | 트위터 | 틱톡 서비스 | RSS 피드