Startseite UnternehmenAI NVIDIA Spectrum-X-Netzwerktechnologie treibt den Colossus-Supercomputer von xAI an

NVIDIA Spectrum-X-Netzwerktechnologie treibt den Colossus-Supercomputer von xAI an

by Harold Fritts

NVIDIA hat bekannt gegeben, dass der Supercomputer Colossus von xAI, der mit bemerkenswerten 100,000 NVIDIA Hopper Tensor Core GPUs ausgestattet ist, jetzt in Memphis, Tennessee, voll einsatzbereit ist.

NVIDIA hat bekannt gegeben, dass der Colossus-Supercomputer von xAI, der mit bemerkenswerten 100,000 NVIDIA Hopper Tensor Core GPUs ausgestattet ist, nun in Memphis, TN, voll einsatzbereit ist. Dieser Erfolg wurde ermöglicht durch NVIDIA Spectrum-X™ Ethernet-Netzwerkplattform, die für robuste Leistung für hyperskalige KI-Rechenzentren mit mehreren Mandanten entwickelt wurde. Spectrum-X verwendet standardbasiertes Ethernet mit RDMA-Netzwerken, um eine effiziente Kommunikation und optimierte Datenverarbeitung in diesen groß angelegten Umgebungen sicherzustellen.

Wechsel zum Supercomputer Colossus

Als weltweit größter KI-Supercomputer unterstützt Colossus derzeit das Training der Grok-Sprachmodellfamilie von xAI, die Chatbot-Funktionen für X Premium-Abonnenten umfasst. xAI plant außerdem, Colossus auf 200,000 NVIDIA Hopper GPUs zu erweitern und so seinen Status als führende KI-Ressource zu stärken. xAI und NVIDIA haben diese Anlage und die fortschrittliche Computerinfrastruktur in einer Rekordzeit von 122 Tagen gebaut, während ähnliche Projekte normalerweise mehrere Monate bis Jahre dauern. Colossus begann innerhalb von 19 Tagen nach der ersten Rack-Installation mit dem Trainingsbetrieb.

Colossus erzielt beim Training von Modellen im großen Maßstab eine außergewöhnliche Netzwerkleistung und profitiert dabei von der Überlastungskontrolle und dem Flussmanagement von Spectrum-X. Dies hat dazu geführt, dass das System keinerlei Latenzminderung oder Paketverluste aufgrund von Flusskollisionen aufweist und eine Datendurchsatzrate von 95 % aufrechterhält. Dies stellt eine erhebliche Verbesserung gegenüber herkömmlichem Ethernet dar, bei dem normalerweise nur 60 % Datendurchsatz und häufige Flusskollisionen auftreten.

Der Fortschritt der Spectrum-X-Implementierung von NVIDIA liegt in ihrem Ansatz zur Handhabung von Netzwerküberlastungen in diesem riesigen GPU-Cluster. Herkömmliche Ethernet-Netzwerke kämpfen mit dem „Incast“-Problem, wenn Tausende von GPUs gleichzeitig kommunizieren, was zu Paketverlusten und erheblichen Leistungseinbußen führt. Während InfiniBand dieses Problem traditionell mit seiner integrierten Priority Flow Control (PFC) und Überlastungsmanagement auf Hardwareebene löste, erzielt Spectrum-X ähnliche Ergebnisse mit RoCE v2 mit verbesserten Überlastungskontrollmechanismen. Dadurch kann xAI InfiniBand-ähnliche Leistungsmerkmale beibehalten und gleichzeitig die Kostenvorteile und Flexibilität der Standard-Ethernet-Infrastruktur nutzen.

Die adaptiven Routing- und Direct Data Placement-Funktionen von Spectrum-X schaffen eine robuste Netzwerkstruktur, die die massiven Ost-West-Verkehrsmuster bewältigen kann, die für verteilte KI-Trainingsworkloads typisch sind. Das Ergebnis ist ein System, das konstant niedrige Latenz und hohen Durchsatz aufrechterhält, selbst wenn alle 100,000 GPUs aktiv an gemeinsamen Operationen teilnehmen.

Gilad Shainer, Senior Vice President of Networking bei NVIDIA, betonte, dass „KI unternehmenskritisch“ sei und eine Kombination aus Leistung, Sicherheit, Skalierbarkeit und Kosteneffizienz erfordere. Er hob hervor, wie NVIDIAs Spectrum-X-Plattform es Unternehmen wie xAI ermöglicht, die Verarbeitung, Analyse und Ausführung von KI-Workloads zu beschleunigen, was zu einer schnelleren Entwicklung und Bereitstellung von KI-Lösungen führt.

Ein Sprecher von xAI würdigte die Hopper-GPUs und die Spectrum-X-Technologie von NVIDIA und bezeichnete die Größe und Leistung des Systems als entscheidend für die Ermöglichung einer optimierten KI-„Fabrik“ auf Basis von Ethernet-Standards.

Das Herzstück von Spectrum-X ist der Spectrum SN5600 Ethernet-Switch, der mit dem Spectrum-800 Switch ASIC Geschwindigkeiten von bis zu 4 Gb/s unterstützt. xAI hat diesen Switch strategisch mit NVIDIAs BlueField-3® SuperNICs gepaart und erreicht damit Leistungsniveaus, die bisher nur InfiniBand vorbehalten waren. Spectrum-X Ethernet-Netzwerke führen Funktionen wie adaptives Routing mit Direct Data Placement, ausgefeilte Überlastungskontrolle und verbesserte Sichtbarkeit und Leistungsisolierung des KI-Gefüges ein – und erfüllen damit die anspruchsvollen Anforderungen von KI-Umgebungen mit mehreren Mandanten und KI-Bereitstellungen auf Unternehmensebene.

Beteiligen Sie sich an StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed