홈페이지 Enterprise NVIDIA HPC 혁신의 새로운 물결 발표

NVIDIA HPC 혁신의 새로운 물결 발표

by 해롤드 프리츠

NVIDIA는 획기적인 과학적 발견을 가능하게 하는 HPC 혁신의 새로운 물결을 강조하는 발표를 하기 위해 SC22를 활용했습니다. NVIDIA는 Quantum-2, Omniverse, HPC at the edge 및 Digital Twin Simulation을 강조했습니다. 다음은 NVIDIA 컴파일입니다.

NVIDIA는 획기적인 과학적 발견을 가능하게 하는 HPC 혁신의 새로운 물결을 강조하는 발표를 하기 위해 SC22를 활용했습니다. NVIDIA는 Quantum-2, Omniverse, HPC at the edge 및 Digital Twin Simulation을 강조했습니다. 다음은 NVIDIA 컴파일입니다.

첫 번째는 차세대의 광범위한 채택이 있었다는 발표입니다. H100 Tensor 코어 GPU 그리고 Quantum-2 인피니밴드Microsoft Azure 클라우드의 새로운 제품과 과학적 발견을 가속화하기 위한 50개 이상의 새로운 파트너 시스템을 포함합니다.

엔비디아 HGX-H100

NVIDIA는 cuQuantum, CUDA 및 BlueField DOCA 가속 라이브러리에 대한 중요한 업데이트를 발표하고 NVIDIA A100 및 H100 기반 시스템에서 Omniverse 시뮬레이션 플랫폼에 대한 지원을 발표했습니다. H100, Quantum-2 및 라이브러리 업데이트는 모두 NVIDIA의 HPC 플랫폼의 일부입니다. HPC 플랫폼에는 CPU, GPU, DPU, 시스템, 네트워킹, 광범위한 AI 및 HPC 소프트웨어가 포함된 전체 기술 스택이 포함되어 있어 연구원이 강력한 시스템, 온프레미스 또는 클라우드에서 작업을 효율적으로 가속화할 수 있습니다.

Azure는 HPC 워크로드를 위한 NVIDIA Quantum-2를 제공합니다.

Microsoft Azure의 Quantum-2 InfiniBand 네트워킹 플랫폼 채택은 지난 2월 GTC에서 발표된 NVIDIA Quantum-XNUMX의 일반 가용성에 이은 것입니다.

H100, NVIDIA AI로 강화된 새로운 서버

ASUS, Atos, Dell, HPE, Lenovo 및 Supermicro는 H100 기반 서버를 발표하는 NVIDIA 파트너 중 일부에 불과합니다. 모든 H100 PCIe GPU에는 NVIDIA AI Enterprise용 100년 라이선스가 포함되어 있습니다. 이를 통해 조직은 의료 영상에서 기상 모델, 안전 경고 시스템 등에 이르기까지 HXNUMX 가속 AI 솔루션을 구축하는 데 필요한 AI 프레임워크 및 도구에 액세스할 수 있습니다.

새로운 시스템의 물결 중에는 역시 SC9680에서 발표된 Dell PowerEdge XE22이 있습니다. 이 제품은 가장 까다로운 AI 및 고성능 워크로드를 처리합니다. 이것은 시뮬레이션, 데이터 분석 및 AI의 융합을 위해 특별히 제작된 NVIDIA HGX 플랫폼 기반의 Dell 최초의 XNUMX방향 시스템입니다.

8640개의 Hopper GPU가 포함된 Dell의 새로운 HGX H100 시스템인 PowerEdge XE4을 사용하면 기업에서 AI 및 머신 러닝 모델을 개발, 교육 및 배포할 수 있습니다. 8640U 랙 시스템인 XE5은 최대 XNUMX개의 PCIe GenXNUMX 슬롯, NVIDIA 멀티 인스턴스 GPU(MIG) 기술 및 엔비디아 GPU다이렉트 스토리지 지원합니다.

가속 라이브러리에 대한 주요 업데이트

과학적 발견을 촉진하기 위해 NVIDIA는 다음을 포함하여 CUDA, cuQuantum 및 DOCA 가속 라이브러리에 대한 중요한 업데이트를 발표했습니다.

  • NVIDIA CUDA 라이브러리에는 이제 다중 노드, 다중 GPU Eigensolver가 포함되어 있어 첫 번째 원리 양자 역학 계산을 위한 패키지인 VASP와 같은 주요 HPC 애플리케이션에 전례 없는 확장성과 성능을 제공합니다.
  • 양자 컴퓨팅 워크플로우를 가속화하기 위한 NVIDIA cuQuantum 소프트웨어 개발 키트는 이제 대략적인 텐서 네트워크 방법을 지원합니다. 이를 통해 연구원은 수만 큐비트를 시뮬레이션하고 cuQuantum Appliance를 사용하여 탁월한 성능으로 양자 시뮬레이션을 위한 다중 노드, 다중 GPU 지원을 자동으로 활성화할 수 있습니다.
  • NVIDIA BlueField DPU를 위한 개방형 클라우드 SDK 및 가속 프레임워크인 NVIDIA DOCA에는 새로운 스토리지 사용 사례를 지원하는 고급 프로그래밍 기능, 보안 및 기능이 포함되어 있습니다.

이러한 라이브러리를 통해 연구원은 여러 서버에 걸쳐 확장하고 성능 향상을 통해 과학적 발견을 주도할 수 있습니다. NVIDIA HPC 가속 라이브러리는 주요 클라우드 플랫폼 AWS, Google Cloud, Microsoft Azure 및 Oracle Cloud Infrastructure에서 사용할 수 있습니다.

과학자를 위한 옴니버스 개방형 포털

다음으로 NVIDIA는 NVIDIA Omniverse가 이제 선도적인 과학 컴퓨팅 시각화 소프트웨어에 연결되고 NVIDIA A100 및 H100 Tensor Core GPU로 구동되는 시스템에서 새로운 배치 렌더링 워크로드를 지원한다고 발표했습니다.

엔비디아는 고성능 컴퓨팅 커뮤니티를 위한 실시간 과학 및 산업용 디지털 트윈도 도입했는데, 이는 대규모 옴니버스 디지털 트윈을 지원하도록 설계된 컴퓨팅 시스템인 엔비디아 OVX와 소프트웨어 및 인프라로서의 옴니버스 클라우드를 통해 가능합니다. - 서비스 제공.

Omniverse는 이제 AI 및 HPC 연구원, 과학자 및 엔지니어가 기존 A100 또는 H100 시스템에서 실행할 수 있는 배치 워크로드를 지원합니다.

NVIDIA는 또한 시각화용 애플리케이션인 Kitware의 ParaView와 같은 인기 있는 과학 컴퓨팅 도구에 대한 연결을 공개했습니다. 체적 렌더링을 위한 NVIDIA IndeX; 물리-ML 모델 개발을 위한 NVIDIA Modulus 대규모 스파스 체적 데이터 표현을 위한 NeuraVDB.

Omniverse 및 하이브리드 클라우드 워크로드를 사용하여 과학 컴퓨팅 고객은 레거시 시뮬레이션 및 시각화 파이프라인을 연결하여 모델 및 데이터 세트와 분산되고 완전한 대화형 진정한 실시간 상호 작용을 달성할 수 있습니다. Argonne National Laboratory, Lockheed Martin 및 Princeton Plasma Physics Laboratory와 같은 NVIDIA 고객은 이미 HPC 워크로드에 대한 Omniverse의 이점을 보고 있습니다.

Omniverse는 글로벌 과학 리더의 지원을 받습니다.

Argonne National Laboratory는 A100 기반 Polaris 슈퍼컴퓨터에서 NVIDIA Omniverse를 사용하여 미래의 디지털 트윈을 위한 기반을 개발하기 위한 첫 단계로 레거시 시각화 도구를 연결하고 있습니다.

플라즈마 물리 및 융합 과학을 위한 미국 에너지부 국립 연구소인 Princeton Plasma Physics Laboratory(PPPL)는 Omniverse를 사용하여 첨단 합성 실시간 HPC 시뮬레이터를 연결하고 가속화하여 융합 장치 및 제어를 모델링하고 있습니다. 시스템을 개선하고 궁극적으로 상업적으로 실행 가능한 새로운 청정 에너지원을 향한 실험 운영을 개선합니다.

기후 연구를 가속화하기 위한 NVIDIA의 Earth-2 이니셔티브에 발맞추어, 항공우주 업계의 리더인 Lockheed Martin은 최근 NVIDIA Omniverse를 사용하여 미국 국립해양대기청(NOAA)에 더 나은 지구 환경 및 상황 인식을 제공하고 대화형 기후 연구 파이프라인을 개발하기 시작했습니다.

유효성

이러한 새로운 기능은 이제 NVIDIA Omniverse에서 지원되며 개발자와 기업에서 사용할 수 있습니다.

NVIDIA 플랫폼은 엣지에서 HPC 문제를 해결합니다.

먼 거리에서 작업을 공유하는 대학과 기업은 전송된 데이터를 보고 이해하기 위해 현미경과 센서에서 서버와 캠퍼스 네트워크에 이르기까지 모든 장치에 공통 언어와 보안 파이프라인이 필요합니다. 저장, 전송 및 분석해야 하는 데이터의 양이 증가함에 따라 문제가 더욱 복잡해집니다.

NVIDIA는 에지 컴퓨팅과 AI를 결합하여 장치가 장거리에서 서로 통신할 수 있도록 과학적 에지 기기에서 스트리밍 데이터를 캡처하고 통합하는 고성능 컴퓨팅 플랫폼을 도입하여 문제를 해결하고 있습니다.

이 플랫폼은 NVIDIA Holoscan, MetroX-3 및 NVIDIA BlueField-3 DPU의 세 가지 주요 구성 요소로 구성됩니다. NVIDIA Holoscan은 데이터 과학자와 도메인 전문가가 데이터를 스트리밍하는 센서용 GPU 가속 파이프라인을 구축하는 데 사용할 수 있는 소프트웨어 개발 키트입니다. MetroX-3는 NVIDIA Quantum-2 InfiniBand 플랫폼의 연결성을 확장하는 새로운 장거리 시스템입니다. 또한 NVIDIA BlueField-3 DPU는 안전하고 지능적인 데이터 마이그레이션을 제공합니다.

연구원들은 HPC 에지 컴퓨팅을 위한 새로운 NVIDIA 플랫폼을 사용하여 문제 해결을 위해 안전하게 통신하고 협업하며 서로 다른 장치와 알고리즘을 함께 가져와 하나의 대형 슈퍼컴퓨터로 작동할 수 있습니다.

에지에서 HPC용 Holoscan

NVIDIA IGX, HGX 및 DGX 시스템을 포함하는 GPU 컴퓨팅 플랫폼에 의해 가속화된 NVIDIA Holoscan은 전 세계 과학 기기에서 생성된 방대한 데이터 스트림을 처리하는 데 필요한 최고의 성능을 제공합니다.

HPC용 NVIDIA Holoscan에는 HPC 연구원이 비이미지 형식에 충분히 유연하고 원시 데이터를 실시간 인사이트로 변환할 수 있을 만큼 확장 가능한 센서 데이터 처리 워크플로를 구축하는 데 사용할 수 있는 C++ 및 Python용 새 API가 포함되어 있습니다.

Holoscan은 메모리 할당을 관리하여 무복사 데이터 교환을 보장하므로 개발자는 파일 및 메모리 I/O 관리에 대해 걱정하지 않고 워크플로 논리에 집중할 수 있습니다.

Holoscan의 새로운 기능은 다음 달 모든 HPC 개발자가 사용할 수 있습니다.

MetroX-3는 멀리 갑니다

다음 달 출시되는 NVIDIA MetroX-3 장거리 시스템은 NVIDIA Quantum-2 InfiniBand 플랫폼의 최신 클라우드 네이티브 기능을 에지에서 HPC 데이터 센터 코어로 확장합니다. 이를 통해 사이트 간에 GPU가 최대 25km(40마일) 떨어진 InfiniBand 네트워크를 통해 데이터를 안전하게 공유할 수 있습니다.

기본 원격 직접 메모리 액세스를 활용하여 사용자는 하나의 InfiniBand 연결 미니 클러스터에서 기본 데이터 센터로 데이터 및 컴퓨팅 작업을 쉽게 마이그레이션하거나 지리적으로 분산된 컴퓨팅 클러스터를 결합하여 전반적인 성능과 확장성을 높일 수 있습니다.

데이터 센터 운영자는 NVIDIA 통합 패브릭 관리자를 사용하여 MetroX-3 시스템을 관리함으로써 모든 InfiniBand 연결 데이터 센터 네트워크에서 프로비저닝, 모니터링 및 운영할 수 있습니다.

안전하고 효율적인 HPC를 위한 BlueField

NVIDIA BlueField DPU는 최신 HPC의 성능과 효율성을 높이기 위해 고급 네트워킹, 스토리지 및 보안 서비스를 오프로드, 가속화 및 격리합니다.

NVIDIA, HPC 데이터 센터 운영자에게 디지털 트윈 시뮬레이션 제공

시뮬레이션 및 디지털 트윈은 데이터 센터 설계자, 건축업자 및 운영자가 매우 효율적이고 성능이 뛰어난 시설을 만드는 데 도움이 될 수 있습니다. NVIDIA Omniverse 시뮬레이션 플랫폼은 협업 가상 디자인 프로세스를 간소화하여 도움을 줍니다.

Omniverse는 이제 데이터 센터 운영자가 핵심 타사 컴퓨터 지원 설계, 시뮬레이션 및 모니터링 애플리케이션에서 실시간 입력을 집계하여 전체 데이터 세트를 실시간으로 보고 작업할 수 있도록 합니다.

SC22 Omniverse 데모는 Omniverse를 통해 사용자가 실시간 모니터링 및 AI에 연결된 가속 컴퓨팅, 시뮬레이션 및 운영 디지털 트윈의 성능을 활용할 수 있는 방법을 보여줍니다. 이를 통해 팀은 시설 설계를 간소화하고 건설 및 배포를 가속화하며 진행 중인 운영을 최적화할 수 있습니다.

데모에서는 네트워크를 시뮬레이션하기 위해 Omniverse와 함께 작동하도록 설계된 데이터 센터 시뮬레이션 플랫폼인 NVIDIA Air도 강조되었습니다. NVIDIA Air를 통해 팀은 전체 네트워크 스택을 모델링할 수 있으므로 네트워크 하드웨어 및 소프트웨어를 가동하기 전에 자동화하고 검증할 수 있습니다.

설계 및 시뮬레이션 향상을 위한 디지털 트윈 만들기

NVIDIA의 최신 AI 슈퍼컴퓨터 중 하나를 계획하고 구성할 때 Autodesk Revit, PTC Creo 및 Trimble SketchUp과 같은 타사 산업 도구에서 여러 엔지니어링 CAD 데이터 세트를 수집했습니다. 이를 통해 디자이너와 엔지니어는 Universal Scene Description 기반 모델을 완전히 충실하게 볼 수 있었고 실시간으로 디자인을 공동으로 반복할 수 있었습니다.

PATCH MANAGER는 네트워크 도메인에서 케이블 연결, 자산 및 물리 계층 지점 간 연결을 계획하기 위한 엔터프라이즈 소프트웨어 응용 프로그램입니다. Omniverse에 연결된 PATCH MANAGER를 사용하면 포트 간 연결, 랙 및 노드 레이아웃, 케이블링의 복잡한 토폴로지를 라이브 모델에 직접 통합할 수 있습니다. 이를 통해 데이터 센터 엔지니어는 모델과 해당 종속성의 전체 보기를 볼 수 있습니다.

공기 흐름과 열 전달을 예측하기 위해 엔지니어들은 전산 유체 역학용 소프트웨어인 Cadence 6SigmaDCX를 사용했습니다. 엔지니어는 거의 실시간으로 "가상" 분석을 위해 NVIDIA Modulus로 훈련된 AI 대리자를 사용할 수도 있습니다. 이를 통해 팀은 복잡한 열 및 냉각의 변화를 시뮬레이션하고 결과를 즉시 확인할 수 있습니다.

또한 NVIDIA Air를 사용하면 프로토콜, 모니터링 및 자동화를 포함한 정확한 네트워크 토폴로지를 시뮬레이션하고 사전 검증할 수 있습니다.

데이터 센터가 구축되면 센서, 제어 시스템 및 원격 측정을 Omniverse 내부의 디지털 트윈에 연결하여 실시간 운영 모니터링이 가능합니다.

엔지니어는 완벽하게 동기화된 디지털 트윈을 사용하여 전력 피크 또는 냉각 시스템 오류와 같은 일반적인 위험을 시뮬레이션할 수 있습니다. 운영자는 에너지 효율성 향상 및 탄소 발자국 감소와 같은 주요 우선 순위에 최적화되는 AI 권장 변경 사항의 이점을 누릴 수 있습니다. 또한 디지털 트윈을 통해 물리적 데이터 센터에 배포하기 전에 소프트웨어 및 구성 요소 업그레이드를 테스트하고 검증할 수 있습니다.

StorageReview에 참여

뉴스레터 | 유튜브 | 팟캐스트 iTunes/스포티 파이 | 인스타그램 | 트위터 | 틱톡 서비스 | RSS 피드