NVIDIA는 100,000만 개의 NVIDIA Hopper Tensor Core GPU를 자랑하는 xAI의 Colossus 슈퍼컴퓨터가 현재 테네시주 멤피스에서 본격 가동되었다고 밝혔습니다.
NVIDIA는 놀라운 100,000개의 NVIDIA Hopper Tensor Core GPU를 자랑하는 xAI의 Colossus 슈퍼컴퓨터가 현재 테네시주 멤피스에서 완전히 작동 중이라고 밝혔습니다. 이 성과는 다음을 통해 가능했습니다. NVIDIA의 Spectrum-X™ 하이퍼스케일, 멀티 테넌트 AI 데이터 센터에 강력한 성능을 제공하도록 설계된 이더넷 네트워킹 플랫폼. Spectrum-X는 RDMA 네트워킹을 갖춘 표준 기반 이더넷을 사용하여 이러한 대규모 환경 내에서 효율적인 통신과 최적화된 데이터 처리를 보장합니다.
세계 최대의 AI 슈퍼컴퓨터인 Colossus는 현재 X Premium 가입자를 위한 챗봇 기능을 포함하는 xAI의 Grok 언어 모델 패밀리의 훈련을 담당하고 있습니다. xAI는 Colossus를 200,000개의 NVIDIA Hopper GPU로 확장하여 최고의 AI 컴퓨팅 리소스로서의 지위를 강화할 계획입니다. xAI와 NVIDIA는 이 시설과 고급 컴퓨팅 인프라를 기록적인 122일 만에 구축한 반면, 비슷한 프로젝트는 일반적으로 수개월에서 수년에 걸쳐 진행됩니다. Colossus는 초기 랙 설치 후 19일 이내에 훈련 운영을 시작했습니다.
Colossus는 Spectrum-X의 혼잡 제어 및 흐름 처리의 이점을 활용하여 대규모 모델을 훈련하는 동안 뛰어난 네트워크 성능을 달성하고 있습니다. 이를 통해 시스템은 흐름 충돌로 인한 지연 저하나 패킷 손실이 전혀 없고 데이터 처리량 비율이 95%로 유지되었습니다. 이는 일반적으로 60%의 데이터 처리량과 빈번한 흐름 충돌만 발생하는 기존 이더넷에 비해 상당한 개선입니다.
NVIDIA의 Spectrum-X 구현의 발전은 이 거대한 GPU 클러스터에서 네트워크 혼잡을 처리하는 접근 방식에 있습니다. 기존 이더넷 네트워크는 수천 개의 GPU가 동시에 통신하여 패킷 손실과 상당한 성능 저하로 이어지는 "인캐스트" 문제로 어려움을 겪습니다. InfiniBand는 기존에 내장된 우선 순위 흐름 제어(PFC) 및 하드웨어 수준 혼잡 관리를 통해 이를 해결했지만 Spectrum-X는 향상된 혼잡 제어 메커니즘을 갖춘 RoCE v2를 사용하여 유사한 결과를 달성합니다. 이를 통해 xAI는 표준 이더넷 인프라의 비용 이점과 유연성을 활용하면서 InfiniBand와 유사한 성능 특성을 유지할 수 있습니다.
Spectrum-X의 적응형 라우팅 및 직접 데이터 배치 기능은 분산형 AI 교육 워크로드에서 일반적인 거대한 동서 트래픽 패턴을 처리할 수 있는 탄력적인 네트워크 패브릭을 생성합니다. 그 결과 100,000개의 GPU가 모두 집단 작업에 적극적으로 참여하더라도 일관된 낮은 대기 시간과 높은 처리량을 유지하는 시스템이 탄생했습니다.
엔비디아의 네트워킹 부문 수석 부사장인 길라드 샤이너는 "AI는 미션 크리티컬"하며 성능, 보안, 확장성, 비용 효율성의 조합이 필요하다고 강조했습니다. 그는 엔비디아의 Spectrum-X 플랫폼이 xAI와 같은 회사가 AI 워크로드에 대한 처리, 분석, 실행을 가속화하여 AI 솔루션의 개발과 배포를 가속화할 수 있는 방법을 강조했습니다.
xAI 대변인은 NVIDIA의 Hopper GPU와 Spectrum-X 기술을 인정하며, 이더넷 표준을 기반으로 최적화된 AI "팩토리"를 구현하는 데 있어 시스템의 규모와 성능이 중요하다고 언급했습니다.
Spectrum-X의 핵심은 Spectrum SN5600 이더넷 스위치로, Spectrum-800 스위치 ASIC으로 최대 4Gb/s의 속도를 지원합니다. xAI는 이 스위치를 NVIDIA의 BlueField-3® SuperNIC와 전략적으로 페어링하여 이전에는 InfiniBand에서만 가능했던 성능 수준을 달성했습니다. Spectrum-X 이더넷 네트워킹은 Direct Data Placement를 통한 적응형 라우팅, 정교한 혼잡 제어, 향상된 AI 패브릭 가시성 및 성능 격리와 같은 기능을 도입하여 멀티 테넌트 AI 환경과 엔터프라이즈 수준 AI 배포의 까다로운 요구 사항을 충족합니다.
StorageReview에 참여
뉴스레터 | 유튜브 | 팟캐스트 iTunes/스포티 파이 | 인스타그램 | 트위터 | 틱톡 서비스 | RSS 피드