NVIDIA GTC 2025에서는 Blackwell Ultra GPU, AI-Q, Mission Control, DGX Spark를 포함한 획기적인 AI 발전이 공개되었습니다.
NVIDIA의 GTC 컨퍼런스는 여러 부문에서 AI 개발을 혁신할 수많은 혁신을 강조했으며 AI 하드웨어, 소프트웨어 및 파트너십의 획기적인 진전을 보여주었습니다. GTC 2025의 보석은 의심할 여지 없이 데이터센터 GPU와 로드맵을 공개하는 것이었습니다. 지금까지 생산된 NVIDIA의 가장 강력한 AI 가속기는 Blackwell Ultra 아키텍처를 기반으로 하는 B300입니다. 이미 업계를 선도하는 Blackwell GPU의 성능보다 성능이 1.5배 향상되었습니다.
NVIDIA에서 출시한 GPU와 비교했을 때 성능 향상은 엄청납니다.
스펙 | H100 | H200 | B100 | B200 | B300 |
---|---|---|---|---|---|
최대 메모리 | 80GB HBM3 | 141GB HBM3e | 192GB HBM3e | 192GB HBM3e | 288GB HBM3e |
메모리 대역폭 | 3.35 TB / 초 | 4.8TB/초 | 8TB/초 | 8TB/초 | 8TB/초 |
FP4 텐서 코어 | - | - | 14PFLOPS | 18PFLOPS | 30PFLOPS |
FP6 텐서 코어 | - | - | 7PFLOPS | 9PFLOPS | 15PFLOPS* |
FP8 텐서 코어 | 3958 TFLOPS(~4 PFLOPS) | 3958 TFLOPS(~4 PFLOPS) | 7PFLOPS | 9PFLOPS | 15PFLOPS* |
INT 8 텐서 코어 | 3958 상단 | 3958 상단 | 7 팝스 | 9 팝스 | 15PFLOPS* |
FP16/BF16 텐서 코어 | 1979 TFLOPS(~2 PFLOPS) | 1979 TFLOPS(~2 PFLOPS) | 3.5PFLOPS | 4.5PFLOPS | 7.5PFLOPS* |
TF32 텐서 코어 | 989 TFLOPS | 989 TFLOPS | 1.8PFLOPS | 2.2PFLOPS | 3.3PFLOPS* |
FP32(밀도) | 67 TFLOPS | 67 TFLOPS | 30 TFLOPS | 40 TFLOPS | 알 수 없는 정보 |
FP64 텐서 코어(밀도) | 67 TFLOPS | 67 TFLOPS | 30 TFLOPS | 40 TFLOPS | 알 수 없는 정보 |
FP64(밀도) | 34 TFLOPS | 34 TFLOPS | 30 TFLOPS | 40 TFLOPS | 알 수 없는 정보 |
최대 소비 전력 | 700W | 700W | 700W | 1000W | 알 수 없는 정보 |
참고: "*"로 표시된 값은 대략적인 계산이며 NVIDIA의 공식 숫자가 아닙니다.
Blackwell Ultra B300은 Blackwell 대응 제품과 마찬가지로 FP4 Tensor Cores가 인상적인 30 PFLOPS를 제공하고 FP6/FP8이 현재 H15에 비해 200 PFLOPS*의 성능을 제공하는 새로운 정밀 형식을 도입합니다. 이는 FP7.5 컴퓨팅을 FP8와 비교할 때 약 4배, FP4 성능을 비교할 때 거의 8배 향상됩니다.
NVIDIA의 로드맵의 다음은 내년에 출시될 예정인 Vera Rubin GPU입니다. Vera Rubin은 Blackwell Ultra의 3.3배의 성능을 제공할 것으로 예상되며, B50의 4 PFLOPS에서 300 PFLOPS의 고밀도 FP15 컴퓨팅을 달성할 것입니다. ConnectX-9 및 NVLink-6 기술이 수반되어 이전 세대의 대역폭을 두 배로 늘릴 것입니다. Vera Rubin GPU는 또한 HBM4 메모리를 특징으로 하여 메모리 대역폭이 1.6배 증가합니다. Grace에서 Vera CPU로 전환하면 CPU-GPU 상호 연결도 크게 향상되어 최대 1.8TB/s의 속도를 달성할 것입니다.
NVIDIA는 2027년 하반기에 출시될 예정인 Rubin Ultra GPU를 티저로 공개하며 주저하지 않았습니다. Rubin Ultra GPU는 Vera Rubin의 성능을 두 배로 높이고 GPU당 100 PFLOPS의 놀라운 고밀도 FP4 컴퓨팅을 제공합니다. Rubin Ultra에는 1TB의 고급 HBM4e 메모리도 장착됩니다.
엔비디아 DGX 스파크
NVIDIA는 DGX Spark를 선보였습니다. 이 시스템은 프로젝트 디지츠 모니커, 올해 초 CES에서. AI 개발자, 연구자, 데이터 과학자, 학생을 대상으로 하는 DGX Spark는 새로운 GB10 Blackwell 칩을 활용하고 128GB의 통합 메모리로 구성됩니다.
NVIDIA는 이 시스템이 1,000개의 AI TOPS를 제공한다고 주장하는데, 이는 Spark의 성능을 RTX 5070과 동등한 실용적인 수준으로 끌어올릴 것입니다. Spark 플랫폼은 또한 ConnectX 7 SmartNIC를 통합하여 Spark에 2개의 200Gb 링크를 장착하여 데이터 이동을 간소화합니다. ASUS, Dell, HPE, Lenovo를 포함한 OEM 파트너는 곧 브랜드 버전을 제공할 예정입니다. 예약은 이미 진행 중이며, XNUMX월에 배송이 시작될 예정입니다.
엔비디아 DGX 스테이션
엔비디아는 또한 엔터프라이즈 애플리케이션을 위한 최고의 데스크톱 AI 슈퍼컴퓨터로 자리매김하고 GB300 Grace Blackwell Ultra 칩을 탑재한 업데이트된 DGX Station을 선보였습니다.
DGX Station은 784페타플롭의 고밀도 FP20 AI 성능을 제공하는 동시에 4GB의 통합 시스템 메모리를 제공합니다. 이를 통해 NVIDIA의 ConnectX 8 SuperNIC가 시스템에 직접 통합되어 800Gb/s 네트워크 연결이 가능해져 고성능 네트워킹이 상당한 컴퓨팅 기능의 요구 사항을 충족합니다. ASUS, Box, Dell, HPE, Lambda, Supermicro와 같은 OEM 파트너가 DGX Station 시스템을 구축할 예정이며 올해 말에 출시될 예정입니다.
엔비디아 RTX 프로 블랙웰
GPU의 횡재는 거기서 끝나지 않았습니다.. 엔비디아 모든 플랫폼에서 AI, 그래픽 및 시뮬레이션 워크로드를 가속화하도록 설계된 전문 GPU 라인업의 포괄적인 리프레시인 RTX Pro Blackwell 시리즈를 공개했습니다. 이 새로운 세대는 데스크톱 워크스테이션, 모바일 시스템 및 서버에 걸쳐 있으며, 주력 제품인 RTX Pro 6000 Blackwell은 업계를 선도하는 96GB GPU 메모리를 특징으로 하며 최대 4,000 TOPS의 AI 성능을 제공합니다. 이러한 발전을 통해 이전에는 데스크톱 시스템에서는 달성할 수 없었던 실시간 레이 트레이싱, 빠른 AI 추론 및 고급 그래픽 워크플로가 가능해졌습니다.
이러한 GPU에 포함된 기술 혁신은 상당하며, 여기에는 1.5배 더 빠른 처리량을 제공하는 NVIDIA의 스트리밍 멀티프로세서, 이전 세대보다 두 배의 성능을 제공하는 4세대 RT 코어, AI 워크로드를 위한 새로운 FP5 정밀도를 지원하는 2.1세대 Tensor 코어가 포함됩니다. 추가 개선 사항으로는 대역폭을 두 배로 늘린 PCIe Gen XNUMX 지원, 극한 해상도 디스플레이 구성을 위한 DisplayPort XNUMX 호환성, Server Edition의 안전한 AI 워크로드를 위한 NVIDIA Confidential Computing이 있습니다.
업계 전문가들은 실제 애플리케이션에서 놀라운 성능 향상을 보고했습니다. Foster + Partners는 RTX A5보다 6000배 빠른 레이 트레이싱을 달성했고, GE HealthCare는 의료 재구성 알고리즘의 GPU 처리 시간이 최대 2배 향상되었다고 밝혔습니다. 자동차 제조업체인 Rivian은 새로운 GPU를 활용하여 디자인 검토에서 전례 없는 VR 시각적 품질을 구현했고, SoftServe는 Llama 3-3.3B와 같은 대형 AI 모델로 작업할 때 생산성이 70배 향상되었다고 보고했습니다. 아마도 가장 인상적인 점은 Pixar가 프로덕션 샷의 99%가 이제 단일 GPU의 96GB 메모리에 들어간다는 것입니다.
RTX Pro 6000 Blackwell Server Edition은 24/7 운영을 위한 수동 냉각 설계로 이러한 기능을 데이터 센터 환경으로 가져갑니다. 이 서버 중심 변형은 이전 세대 하드웨어에 비해 5배 더 높은 대규모 언어 모델 추론 처리량, 7배 더 빠른 게놈 시퀀싱, 텍스트-비디오 생성을 위한 3.3배 속도 향상, 추천 시스템 추론 및 렌더링을 2배 개선합니다. 이러한 GPU는 처음으로 vGPU와 MIG(Multi-Instance GPU) 기술을 모두 지원하여 각 카드를 최대 XNUMX개의 완전히 격리된 인스턴스로 분할하여 다양한 워크로드에 대한 리소스 활용을 극대화할 수 있습니다. 이러한 GPU의 데스크톱 버전은 XNUMX월에 출시될 예정이며, 서버 대응 제품은 XNUMX월에 출시되고 OEM 기반 노트북은 XNUMX월에 출시될 예정입니다.
엔비디아 포토닉스
AI 데이터 센터 내 광 네트워킹을 혁신하는 혁신 세트인 NVIDIA Photonics가 하드웨어 발표를 마무리했습니다. 기존의 플러그형 트랜시버를 스위치 ASIC과 동일한 패키지에 있는 공동 패키지 광 엔진으로 대체함으로써 NVIDIA Photonics는 전력 소비를 최소화하고 데이터 연결을 간소화합니다.
TSMC의 광자 엔진 최적화를 활용하고 마이크로 링 변조기, 고효율 레이저, 분리형 파이버 커넥터로 보완된 새로운 Photonics 플랫폼은 기존 솔루션보다 최대 3.5배 더 나은 효율성, 10배 더 높은 복원력을 제공하고 배포 속도를 1.3배 더 빠르게 달성하도록 설계되었습니다. NVIDIA는 더 광범위한 생태계 접근 방식을 보여주면서 고급 패키징 및 광학 구성 요소 제조 리더와의 파트너십이 이러한 성능 향상을 달성하는 데 어떻게 중요한지 자세히 설명했습니다.
이러한 새로운 발전으로 NVIDIA는 Quantum-X 및 Spectrum-X 스위치 제품군에서 200G SerDes를 특징으로 하는 세 가지 새로운 스위치를 선보였습니다. Quantum-X Infiniband 라인업에는 인상적인 3450G 포트 144개 또는 800G 포트 576개를 갖추고 200Tb/s의 대역폭을 제공하는 Quantum 115-LD가 포함됩니다. Spectrum-X 이더넷 스위치에서 포트폴리오는 6810G 포트 128개 또는 800G 포트 512개를 제공하는 보다 컴팩트한 Spectrum SN200부터 6800G 포트 512개와 800G 포트 2048개를 자랑하는 고밀도 Spectrum SN200까지 다양합니다. 이러한 모든 스위치는 최적의 성능과 효율성을 유지하기 위해 액체 냉각 기술을 갖추고 있습니다.
NVIDIA Quantum-X Photonics InfiniBand 스위치는 올해 말에 출시될 예정이며, NVIDIA Spectrum-X Photonics Ethernet 스위치는 2026년에 주요 인프라 및 시스템 공급업체를 통해 출시될 예정입니다.
Nvidia Dynamo로 하드웨어와 소프트웨어를 하나로 모으다
NVIDIA의 발표는 소프트웨어와 하드웨어가 동등하게 이루어졌습니다. 새로운 Blackwell GPU의 연산 능력을 최대한 활용하기 위해 NVIDIA는 대규모 AI 모델을 제공하도록 특별히 설계된 AI 추론 소프트웨어인 Dynamo를 소개했습니다.
NVIDIA Dynamo는 전체 데이터 센터에서 대규모 AI 모델의 배포를 최적화하도록 설계된 오픈소스 추론 플랫폼입니다. Dynamo의 고유한 분산 및 분산 아키텍처를 통해 여러 GPU에서 단일 쿼리를 확장하여 추론 워크로드를 극적으로 가속화할 수 있습니다. 입력 토큰 계산과 출력 토큰 간에 처리 작업을 지능적으로 분할하고 NVIDIA의 NVLink 상호 연결의 강점을 활용하여 DeepSeek R30과 같은 추론 집약적 모델의 성능을 최대 1배까지 향상시킵니다.
놀랍게도 Dynamo는 Hopper GPU에서 추가 하드웨어 없이 LLAMA와 같은 기존 LLM의 처리량을 두 배로 늘려 AI 팩토리의 토큰 생성과 수익 잠재력을 효과적으로 두 배로 늘립니다. NVIDIA는 Dynamo를 통해 모든 사람에게 하이퍼스케일 수준의 최적화를 제공하고 이를 사용 가능하게 하여 모든 사람이 AI의 혁신적 잠재력을 최대한 활용할 수 있도록 합니다.
Dynamo는 현재 GitHub에서 사용할 수 있으며 PyTorch, BLM, SGLang, TensorRT 등 인기 있는 백엔드를 지원합니다.
Nvidia AI-Q: 차세대 Agentic AI 시스템
NVIDIA는 또한 AI 에이전트를 대규모 엔터프라이즈 데이터 및 도구에 원활하게 연결하는 청사진인 AI-Q(발음은 "IQ")를 소개했습니다. 이 오픈소스 프레임워크를 통해 에이전트는 텍스트, 이미지, 비디오를 포함한 여러 데이터 유형을 쿼리하고 추론하고 웹 검색 및 기타 에이전트와 같은 외부 도구를 활용할 수 있습니다.
AI-Q의 핵심은 오늘 GitHub에 출시된 오픈소스 소프트웨어 라이브러리인 새로운 NVIDIA AgentIQ 툴킷입니다. AgentIQ는 다중 에이전트 시스템의 연결, 프로파일링 및 최적화를 용이하게 하여 기업이 정교한 디지털 인력을 구축할 수 있도록 합니다. AgentIQ는 CrewAI, LangGraph, Llama Stack, Microsoft Azure AI Agent Service, Letta를 포함한 기존 다중 에이전트 프레임워크와 완벽하게 통합되어 개발자가 점진적으로 또는 완전한 솔루션으로 채택할 수 있습니다.
NVIDIA는 또한 선도적인 데이터 스토리지 공급업체와 협력하여 NVIDIA NeMo Retriever, AI-Q Blueprint, Blackwell GPU, Spectrum X 네트워킹 및 Bluefield DPU를 통합하는 AI 데이터 플랫폼 참조 아키텍처를 만들고 있습니다. 거의 실시간 데이터 처리 및 빠른 지식 검색을 보장하여 AI 에이전트에게 필수적인 비즈니스 인텔리전스를 제공합니다.
AI-Q는 4월부터 개발자들이 체험할 수 있게 공개됩니다.
NVIDIA Mission Control: AI 공장 조율
포괄적인 소프트웨어 전략을 바탕으로 NVIDIA는 AI 데이터 센터와 워크로드의 복잡한 관리를 자동화하도록 설계된 업계 유일의 통합 운영 및 오케스트레이션 소프트웨어 플랫폼인 Mission Control을 공개했습니다. Dynamo는 추론을 최적화하고 AI-Q는 에이전트 시스템을 활성화하는 반면, Mission Control은 전체 AI 파이프라인을 뒷받침하는 중요한 인프라 계층을 처리합니다.
Mission Control은 기업이 AI 인프라를 배포하고 관리하는 방식을 혁신하여 프로비저닝, 모니터링, 오류 진단을 포함한 엔드투엔드 관리를 자동화합니다. 이 플랫폼은 Blackwell 기반 시스템에서 훈련 및 추론 워크로드 간의 원활한 전환을 지원하여 조직이 우선순위가 동적으로 변함에 따라 클러스터 리소스를 재할당할 수 있도록 합니다. NVIDIA가 인수한 Run:ai 기술을 통합한 Mission Control은 수동 개입이 필요한 기존 방법보다 최대 5배까지 인프라 활용도를 높이고 최대 10배 더 빠른 작업 복구를 제공합니다.
이 소프트웨어는 간소화된 클러스터 설정, SUNK(Slurm 및 Kubernetes) 워크플로우를 위한 원활한 워크로드 오케스트레이션, 개발자가 선택할 수 있는 제어 기능을 갖춘 에너지 최적화 전력 프로필, 자율적인 작업 복구 기능을 포함하여 현대 AI 워크로드에 중요한 여러 가지 운영상의 이점을 제공합니다. 추가 기능으로는 사용자 정의 가능한 성능 대시보드, 주문형 상태 검사, 향상된 냉각 및 전력 관리를 위한 빌딩 관리 시스템 통합이 있습니다.
Dell, HPE, Lenovo, Supermicro를 포함한 주요 시스템 제조업체는 Mission Control이 장착된 NVIDIA GB200 NVL72 및 GB300 NVL72 시스템을 제공할 계획이라고 발표했습니다. Dell은 NVIDIA와 함께 AI Factory에 소프트웨어를 통합하고 HPE는 Grace Blackwell 랙 스케일 시스템과 함께 제공합니다. Lenovo는 Mission Control을 포함하도록 Hybrid AI Advantage 솔루션을 업데이트할 계획이며 Supermicro는 이를 Supercluster 시스템에 통합할 것입니다.
NVIDIA Mission Control은 이미 DGX GB200 및 DGX B200 시스템에서 사용할 수 있으며, 올해 말에 DGX GB300, DGX B300 및 GB300 NVL72 시스템을 지원할 예정입니다. AI 인프라 관리를 시작하려는 조직의 경우 NVIDIA는 또한 Base Command Manager 소프트웨어가 클러스터 크기에 관계없이 시스템당 최대 XNUMX개의 가속기에 대해 곧 무료로 제공될 것이라고 발표했습니다.
결론
NVIDIA의 GTC 2025는 AI 기술의 획기적인 도약을 위한 무대를 마련했으며, 하드웨어, 소프트웨어 및 인프라 전반에 걸쳐 획기적인 발전을 공개했습니다. Blackwell Ultra 아키텍처를 기반으로 하는 강력한 B300 GPU부터 혁신적인 DGX Spark 및 DGX Station 시스템에 이르기까지 NVIDIA는 AI 컴퓨팅에서 무엇이 가능한지 계속해서 재정의하고 있습니다. NVIDIA Photonics, Dynamo 추론 소프트웨어, AI-Q 에이전트 프레임워크 및 Mission Control 오케스트레이션 플랫폼의 도입은 기업이 더 빨리 시장에 진출하고 더 효율적으로 확장하는 데 도움이 될 것이며, 의심할 여지 없이 NVIDIA가 이 분야의 리더로서 더욱 확고히 자리매김하는 데 한 걸음 더 나아갈 것입니다.
하지만 이것은 빙산의 일각일 뿐입니다. GTC에는 탐험할 혁신과 통찰력이 훨씬 더 많이 있습니다. 계속 지켜봐 주시고 이번 주에 나올 다른 뉴스 기사를 주시하세요. NVIDIA의 흥미로운 미래에 대한 최신 발표와 심층 분석을 계속 전해드리겠습니다.
StorageReview에 참여
뉴스레터 | 유튜브 | 팟캐스트 iTunes/스포티 파이 | 인스타그램 | 트위터 | 틱톡 서비스 | RSS 피드