오늘 일정이 변경된 GTC(NVIDIA에서 주최하는 GPU 기술 컨퍼런스)에서 NVIDIA는 첫 번째 7nm GPU를 기기 제조업체에 배송하기 시작했다고 밝혔습니다. 7년 전인 2018년에 7nm GPU를 출시한 AMD와 마찬가지로 NVIDIA는 첫 번째 XNUMXnm GPU의 데이터 센터 사용 사례에 집중하기로 결정했습니다. NVIDIA는 인공 지능 및 기타 고성능 컴퓨팅의 개발을 강조해 왔습니다. 회사도 최근에 사들인 멜라녹스. 이달 초 NVIDIA는 적운 획득 뿐만 아니라.
오늘 일정이 변경된 GTC(NVIDIA에서 주최하는 GPU 기술 컨퍼런스)에서 NVIDIA는 첫 번째 7nm GPU를 기기 제조업체에 배송하기 시작했다고 밝혔습니다. 7년 전인 2018년에 7nm GPU를 출시한 AMD와 마찬가지로 NVIDIA는 첫 번째 XNUMXnm GPU의 데이터 센터 사용 사례에 집중하기로 결정했습니다. NVIDIA는 인공 지능 및 기타 고성능 컴퓨팅의 개발을 강조해 왔습니다. 회사도 최근에 사들인 멜라녹스. 이달 초 NVIDIA는 적운 획득 뿐만 아니라.
NVIDIA의 첫 번째 7nm GPU는 NVIDIA A100입니다. A100은 NVIDIA의 Ampere 아키텍처를 기반으로 하며 54억 개의 트랜지스터를 포함합니다. 이전 NVIDIA 데이터 센터 GPU와 마찬가지로 A100에는 Tensor 코어가 포함되어 있습니다. Tensor 코어는 추론에 일반적으로 사용되는 유형의 행렬 곱셈 및 덧셈 계산을 신속하게 수행하도록 특별히 설계된 GPU의 특수 부품입니다. 더 강력해진 새로운 GPU와 함께 새롭고 더 강력한 Tensor 코어가 제공됩니다. 이전에 NVIDIA의 Tensor 코어는 최대 100비트 부동 소수점 숫자만 지원할 수 있었습니다. AXNUMX은 XNUMX비트 부동 소수점 연산을 지원하여 훨씬 더 정밀합니다.
또한 A100의 새로운 기능은 다중 인스턴스 GPU 기능입니다. 각 A100 GPU는 많은 수의 작업을 동시에 처리하기 위해 최대 XNUMX개의 독립 인스턴스로 분할할 수 있습니다.
엔비디아 A100 사양
트랜지스터 수 |
54 억 |
다이 크기 |
826 mm2 |
FP64 CUDA 코어 |
3,456 |
FP32 CUDA 코어 |
6,912 |
텐서 코어 |
432 |
스트리밍 멀티 프로세서 |
108 |
FP64 |
9.7테라플롭스 |
FP64 텐서 코어 |
19.5테라플롭스 |
FP32 |
19.5테라플롭스 |
TF32 텐서 코어 |
156테라플롭스 | 312테라플롭* |
BFLOAT16 텐서 코어 |
312테라플롭스 | 624테라플롭* |
FP16 텐서 코어 |
312테라플롭스 | 624테라플롭* |
INT8 텐서 코어 |
624탑스 | 1,248 탑스* |
INT4 텐서 코어 |
1,248탑스 | 2,496 탑스* |
GPU 메모리 |
40 GB |
GPU 메모리 대역폭 |
1.6 TB / 초 |
상호 연결 |
NVLink 600GB/s PCIe Gen4 64GB/s |
다중 인스턴스 GPU |
최대 7MIG @5GB의 다양한 인스턴스 크기 |
폼 팩터 |
HGX A4의 8/100 SXM GPU |
최대 전력 |
400W(SXM) |
단일 A100 GPU 외에도 NVIDIA는 두 개의 클러스터링된 GPU도 동시에 출시합니다. NVIDIA DGX A100 시스템에는 NVIDIA NVSwitch와 상호 연결된 100개의 NVIDIA A100 GPU가 있습니다. 동생인 NVIDIA HGX A100은 NVLink를 통해 상호 연결된 100개의 A100 GPU로 구성됩니다. NVLINK와 NVSwitch 모두 개별 GPU가 대규모 작업에서 함께 작동할 수 있도록 합니다. NVLink는 진정한 all-to-all 상호 연결입니다. NVSwitch 상호 연결에서 더 많은 수의 GPU를 처리하기 위해 NVIDIA는 GPU 간의 NVLink를 함께 교차 연결하기로 결정했습니다. NVIDIA는 새로운 A2을 위한 올투올(all-to-all) 상호 연결을 강화하여 칩의 훨씬 더 강력한 코어를 지원하기 위해 연결성을 두 배로 늘렸습니다. NVIDIA는 이전 DGX 시스템보다 성능이 두 배 이상 향상되었다고 주장합니다. 그들에 따르면 새로운 100개의 GPU DGX A320은 놀라운 6페타플롭을 수행할 수 있습니다. 이전 세대인 DGX-200는 3.6개의 GPU이지만 XNUMX페타플롭스만 관리합니다. 조만간 XNUMX페타플롭을 자랑하는 시스템에 "전용"이라는 단어를 사용하게 되리라고는 예상하지 못했지만, 새 클러스터가 절반의 GPU로 성능을 두 배 이상 늘리면 적합해 보입니다. DGX AXNUMX은 또한 XNUMXGB의 메모리와 초당 XNUMX개의 NVIDIA Mellanox ConnectX-XNUMX HDR XNUMXGb 네트워크 인터페이스를 자랑하며 초당 총 XNUMXTb의 양방향 대역폭을 제공합니다.
DGX A100의 강력한 성능을 한눈에 보기 위해 세계에서 18번째로 강력한 슈퍼컴퓨터는 XNUMX페타플롭스로 벤치마킹되었습니다. NVIDIA의 새로운 불량배 두 명을 한데 모으면 세계 최고 수준의 슈퍼컴퓨터를 갖게 됩니다. 놀랍게도 NVIDIA는 이를 수행하는 DGX SuperPOD 참조 아키텍처를 출시했습니다. 시스템이 NVIDIA의 주장만큼 잘 작동한다면 앞으로 몇 달은 슈퍼컴퓨팅 애호가들에게 매우 이상할 것입니다.
엔비디아는 더 일반적인 사용 사례와 함께 정상적인 세계로 돌아가 연말까지 새로운 GPU를 사용하는 에지 서버를 출시할 계획도 발표했습니다. EGX A100은 새로운 A100 GPU 중 하나만으로 구동됩니다. NVIDIA는 EGX A100 에지 서버를 Red Hat Enterprise Linux에서 실행할 계획입니다. 이 어플라이언스는 NVIDIA가 최근에 인수한 Mellanox ConnectX-6 Dx 네트워크 카드를 사용하여 최대 200Gbps의 데이터를 수신하고 AI 또는 5G 신호 처리를 위해 GPU 메모리로 직접 보낼 가능성이 높습니다. NVIDIA 자체가 올해 말까지 새로운 GPU 중 하나만 포함된 어플라이언스를 출시할 계획이 없다는 사실은 여러 DGX A100을 클러스터링하는 기발한 아이디어가 실제로 무엇인지를 분명히 보여줍니다.
StorageReview에 참여
뉴스레터 | 유튜브 | 팟캐스트 iTunes/스포티 파이 | 인스타그램 | 트위터 | 페이스북 | RSS 피드