StorageReview.com

NVIDIA RTX PRO 6000 Workstation GPU-Test: Blackwell-Architektur und 96 GB für professionelle Workflows

Privatkunden  ◇  Arbeitsplatz

Im August hat NVIDIA sein Top-Desktop-Angebot Blackwell in zwei Bereiche für Profis aufgeteilt: Workstation und Server. Die RTX PRO 6000 Workstation-Karte richtet sich an Kreative, Ingenieure und KI-Entwickler, die maximale Rechenleistung und VRAM in einem Tower- oder Desktop-Gehäuse benötigen. Die RTX PRO 6000 Blackwell Server Edition ist für Rack-Server und Headless-Inferenz- oder Rendering-Knoten im Rechenzentrum konzipiert. Nachdem wir nun die Workstation-Karte auf dem Prüfstand haben, können wir uns in diesem Test darauf konzentrieren.

Vorderansicht der Nvidia RTX PRO 6000 mit Faultier.

Für 8,500 US-Dollar bietet die RTX PRO 6000 einen vollwertigen GB202 mit 24,064 CUDA-Kernen, 752 Tensor-Kernen der fünften Generation, 188 RT-Kernen der vierten Generation und 96 GB GDDR7 ECC. Der Reiz liegt auf der Hand: Sie erhalten Speicherkapazität, die Consumer-Karten nicht bieten können, professionelle Treiber und einen Dual-Slot-Formfaktor, der für echte Workstations ohne besondere Anforderungen an Stromversorgung oder Luftzirkulation geeignet ist.

NVIDIA positioniert diese GPU für gemischte Workflows. Dazu gehören lokale LLM-Inferenz mit langem Kontext, umfangreiches Szenen-Rendering, komplexe Simulationen und Multi-GPU-Forschungs-Rigs. Praktische Details sind hier wichtig. Die Karte nutzt eine standardmäßige PCIe 5.0 x16-Schnittstelle, bietet vier DisplayPort 2.1b-Ausgänge für hochauflösende Visualisierung mit hoher Bildwiederholrate und eine konfigurierbare TDP von 600 W, sodass Integratoren optimale Thermik, Akustik oder Dichte einstellen können.

Unser Ziel besteht darin, die Leistung dieser Workstation-Version im Labor in den Bereichen KI, Rendering und allgemeines Computing zu bewerten und die Auswirkungen des 96-GB-Pools auf die Fähigkeiten eines einzelnen Desktop-Knotens zu quantifizieren.

NVIDIA RTX PRO 6000 Workstation vs. Server Edition

Die RTX PRO 6000-Varianten basieren auf der gleichen Blackwell GB202-Basis, sodass die rein mathematischen Fähigkeiten auf dem Papier vertraut wirken. Der Unterschied liegt in der Art und Weise, wie und wo sie eingesetzt werden sollen. Die von uns getestete Workstation-Karte ist eine in sich geschlossene, aktiv gekühlte Dual-Slot-Karte mit vier DisplayPort 2.1b-Ausgängen und Studio-Treibern. Sie passt in eine Tower- oder Deskside-Workstation, steuert lokale Panels an und führt ISV-zertifizierte DCC- und CAD-Anwendungen neben CUDA, TensorRT und cuDNN aus. Wenn Arbeitsabläufe interaktive Viewport-Arbeit, lokale Visualisierung und On-Box-KI kombinieren, ist dies der Weg, der alles in einem Gehäuse mit vorhersehbarer Akustik und Wärme vereint.

Die RTX PRO 6000 Blackwell Server Edition ist für einen deutlich anderen Zweck konzipiert. Es handelt sich um eine Headless-Rack-First-Konfiguration für Server mit Front-to-Back-Luftstrom und Remote-Management-Funktionen. Es gibt keine aktiven Display-Ausgänge, da Jobs über das Netzwerk geplant und die Ergebnisse remote abgerufen werden. Firmware, Strom- und Wärmeprofile werden über einen Scheduler auf 24×7-Betrieb optimiert, typischerweise gepaart mit NVIDIA AI Enterprise, Container-Orchestrierung und Hypervisor-Passthrough. Kurz gesagt: Das Workstation-Modell ist die richtige Wahl, wenn Entwickler und Ingenieure ihre Arbeit lokal sehen und bearbeiten und gleichzeitig große Inferenz- oder Simulationsbatches ausführen müssen. Die Server-Edition ist sinnvoller, wenn identische Knoten hinter einer Warteschlange in einem Rechenzentrum skaliert werden, wo jedes Watt, jedes Kabel und jeder Luftstrompfad in einen OEM-Serviceplan passen muss.

NVIDIA RTX PRO 6000 Spezifikationen

Die folgende Tabelle zeigt die Spezifikationen der NVIDIA RTX PRO 6000 im Vergleich zur RTX 5090 und der vorherigen Ada Lovelace-Generation RTX 4090.

GPU-Vergleich NVIDIA RTX PRO 6000 NVIDIA RTX 5090 NVIDIA RTX 4090
GPU-Name GB202 GB202 AD102
Architektur Blackwell 2.0 Blackwell 2.0 Ada Lovelace
Prozessgröße 5 nm 5 nm 5 nm
Transistoren 92,200 Millionen 92,200 Millionen 76,300 Millionen
Signaldichte 122.9 M/mm² 122.9 M/mm² 125.3 M/mm²
Die Größe 750 mm² 750 mm² 609 mm²
Schlitzbreite Dual-Slot Dual-Slot Dreifach-Slot
ABMESSUNGEN 304 mm x 137 mm x 40 mm 304 mm x 137 mm x 48 mm 304 mm x 137 mm x 61 mm
TDP 600W 575W 450W
Ausgänge 4x DisplayPort 2.1b 1x HDMI 2.1b, 3x DisplayPort 2.1b 1x HDMI 2.1, 3x DisplayPort 1.4a
Power-Steckverbinder 1x 16-Pin 1x 16-Pin 1x 16-Pin
Bus-Schnittstelle PCIe 5.0 x16 PCIe 5.0 x16 PCIe 4.0 x16
Basisuhr 1590 MHz 2017 MHz 2235 MHz
Boost Uhr 2617 MHz 2407 MHz 2520 MHz
Speicheruhr 1750 MHz (28 Gbit / s effektiv) 2209 MHz (28 Gbit / s effektiv) 1313 MHz (21 Gbit / s effektiv)
Speichergröße 96 GB 32 GB 24 GB
Speichertyp GDDR7 ECC GDDR7 GDDR6X
Memory-Bus 512 Bit 512 Bit 384 Bit
Speicherbandbreite 1.79 TB / s 1.79 TB / s 1.01 TB / s
CUDA-Kerne 24,064 21,760 16,384
Tensorkerne 752 680 512
ROPs 192 192 176
SM-Zählung 188 170 128
RT-Kerne 188 170 128
L1 Cache 128 KB (pro SM) 128 KB (pro SM) 128 KB (pro SM)
L2 Cache 128 MB 88 MB 72 MB
Pixelrate 502.5 GPixel/s 462.1 GPixel/s 443.5 GPixel/s
Texturrate 1,968.0 GTexel/s 1,637 GTexel/s 1,290 GTexel/s
FP16 (halb) 126.0 TFLOPS (1:1) 104.8 TFLOPS (1:1) 82.58 TFLOPS (1:1)
FP32 (Float) 126.0 TFLOPS 104.8 TFLOPS 82.58 TFLOPS
FP64 (doppelt) 1.968 TFLOPS (1:64) 1.637 TFLOPS (1:64) 1,290 GFLOPS (1:64)
Einführungspreis (USD) $8,500 $1,999 $1,599

Aufbau und Design

Die RTX PRO 6000 Workstation GPU führt NVIDIAs klares, funktionales Design, wie es auch bei der RTX 5090 FE zu sehen ist, mit einem industriellen mattschwarzen Finish und einem für Workstation-Umgebungen optimierten Dual-Axial-Lüfter-Layout fort. Jeder Lüfter ist so konstruiert, dass er den Luftstrom durch die durchgehende 3D-Vapor-Chamber leitet und so das thermische Gleichgewicht bei anhaltender Belastung aufrechterhält. Mit Abmessungen von 304 mm × 137 mm × 40 mm passt sie bequem in eine Dual-Slot-Konfiguration und bietet mit ihrer TDP von 600 W eine außergewöhnliche Leistungsdichte.

Vorderansicht der Nvidia RTX PRO 6000.

An der Oberkante verfügt der PRO 6000 über einen einzelnen 16-Pin-Stromanschluss, der den nötigen Strom für den 96 GB GDDR7-Speicher und die vollständige Blackwell 2.0-Architektur liefert. Die Verarbeitung wirkt hochwertig und robust, mit einer Aluminiumabdeckung, die die Luft effizient über den Lamellenstapel leitet. Das dezente NVIDIA-Branding ergänzt die professionelle Ästhetik ohne RGB- oder Gaming-Elemente und betont die Zuverlässigkeit und Leistung in thermisch anspruchsvollen Workstation-Gehäusen.

Oberseite der Nvidia RTX PRO 6000.

Auf der I/O-Seite bietet NVIDIA vier DisplayPort 2.1b-Ausgänge und gewährleistet so die Kompatibilität mit 8K-Konfigurationen mit mehreren Monitoren, farbgenauen HDR-Workflows und fortschrittlichen Rendering-Umgebungen. Die Verwendung von DisplayPort 2.1b über HDMI spiegelt die professionelle Ausrichtung wider und bietet eine verbesserte Bandbreite für hochauflösende Displays.

Nvidia RTX PRO 6000-Display-Anschlüsse.

Performance Testing

Um die Leistung unseres NVIDIA RTX PRO 6000-Modells zu bewerten, haben wir es direkt mit NVIDIAs Flaggschiff-Consumer-Pendants, der RTX 5090 Founders Edition und der RTX 4090 Founders Edition, verglichen. Die Tests wurden mit einer Mischung aus professionellen und KI-gesteuerten Workloads durchgeführt, um sowohl die reine Rechenleistung als auch die reale Anwendungsleistung hervorzuheben. Zu den Benchmarks gehörten UL Procyon AI Text Generation, UL Procyon AI Image Generation, LuxMark, Geekbench 6 und V-Ray, die einen ausgewogenen Überblick über Rendering-, Inferenz- und Produktivitätsleistung bieten.

Zusätzlich zu diesen Standard-Workloads haben wir auch gezielte Tests durchgeführt, um den 96 GB GDDR7-Speicher im RTX PRO 6000 zu demonstrieren und seine Vorteile bei der Verarbeitung großer Modelle, hochauflösender Datensätze und professioneller Visualisierungs-Workloads aufzuzeigen, bei denen Kapazität und anhaltender Durchsatz entscheidend sind.

Um die Vorteile der neuen NVIDIA RTX PRO 6000 voll auszuschöpfen, haben wir unsere AMD ThreadRipper-Plattform eingesetzt. Dieses System bietet in der aktuellen Konfiguration eine 64-Kern-CPU und einen Wasserkühlungskreislauf. Es verfügt über ausreichend CPU-Leistung, damit die GPU ungehindert arbeiten kann. Die vollständige Systemkonfiguration finden Sie unten.

StorageReview AMD ThreadRipper-Testplattform
  • Motherboard: ASUS Pro WS TRX50-SAGE WLAN
  • ZENTRALPROZESSOR: AMD Ryzen Threadripper 7980X 64-Kern
  • RAM: 32 GB DDR5 4800 MT/s
  • Lagerung: 2 TB Samsung 980 Pro
  • OS: Windows 11 Pro für Arbeitsstationen

UL Procyon: KI-Textgenerierung

Die Procyon AI Text Generation Benchmark optimiert KI-LLM-Leistungstests durch eine präzise und konsistente Bewertungsmethode. Es ermöglicht wiederholte Tests mit mehreren LLM-Modellen und minimiert gleichzeitig die Komplexität großer Modelle und variabler Faktoren. Entwickelt in Zusammenarbeit mit führenden KI-Hardware-Anbietern, optimiert es die Nutzung lokaler KI-Beschleuniger für zuverlässigere und effizientere Leistungsbewertungen. Die unten gemessenen Ergebnisse wurden mit TensorRT getestet.

In allen vier Modelltests führte die NVIDIA RTX PRO 6000 durchweg das Feld an. Beginnend mit Phi erreichte die PRO 6000 eine Gesamtpunktzahl von 6,775 und übertraf damit die RTX 5090 mit 5,749, die RTX 4090 mit 4,958 und die RTX 6000 Ada mit 4,508. Die schnellere Token-Generierungsrate (325.9 Token/s) und die geringere Latenz (0.182 s bis zum ersten Token) unterstreichen ihre Reaktionsfähigkeit bei der Echtzeit-Textgenerierung und chatbasierten KI-Workloads.

Der Trend setzte sich bei Mistral fort, wo der PRO 6000 7,346 erreichte und damit einen deutlichen Vorsprung vor dem 5090 (6,267), 4090 (5,094) und 6000 Ada (4,255) behielt. Sein Durchsatz von 271.8 Token/s verdeutlicht den Vorteil des größeren 96-GB-Speicherpools und der optimierten Workstation-Abstimmung für High-Context-Inferenz.

In Llama3 blieb die PRO 6000 mit einem Ergebnis von 6,501 vorne, verglichen mit 6,104 für die RTX 5090, 4,849 für die 4090 und 4,026 für die 6000 Ada. Dies unterstreicht die Konsistenz der Blackwell-Architektur von NVIDIA, wobei die PRO 6000 ihre Leistungsvorteile beibehält, wenn die Komplexität und Kontextlänge der Transformer-Workloads zunimmt.

In Llama2, das auf Inferenz mit langem Kontext und anhaltender Leistung setzt, erreichte der PRO 6000 8,008, während der 5090, 4090 und 6000 Ada mit 6,591, 5,013 bzw. 3,957 zurückblieben. Selbst bei zunehmender Sequenzlänge und Inferenzzeit behielt der PRO 6000 seine klare Dominanz in Bezug auf Geschwindigkeit und Stabilität und schloss Läufe schneller und mit gleichmäßigerem Durchsatz ab als jede andere getestete GPU.

UL Procyon: KI-Textgenerierung NVIDIA RTX PRO 6000 NVIDIA RTX 5090 NVIDIA RTX 4090 NVIDIA RTX 6000 Ada
Phi-Gesamtpunktzahl 6,775 5,749 4,958 4,508
Phi-Ausgabezeit bis zum ersten Token 0.182 s 0.244 s 0.255 s 0.288 s
Phi-Ausgabetoken pro Sekunde 325.855 Zeichen/s 314.435 Zeichen/s 244.343 Zeichen/s 228.359 Zeichen/s
Phi Gesamtdauer 9.498 s 10.280 s 12.872 s 13.869 s
Mistral-Gesamtpunktzahl 7,346 6,267 5,094 4,255
Mistral-Ausgabezeit bis zum ersten Token 0.229 s 0.297 s 0.322 s 0.419 s
Mistral-Ausgabetoken pro Sekunde 271.779 Zeichen/s 255.945 Zeichen/s 183.266 Zeichen/s 166.633 Zeichen/s
Mistral Gesamtdauer 11.493 s 12.593 s 17.010 s 19.092 s
Llama3 Gesamtpunktzahl 6,501 6,104 4,849 4,026
Llama3-Ausgabezeit bis zum ersten Token 0.218 s 0.234 s 0.259 s 0.348 s
Llama3-Ausgabetoken pro Sekunde 226.407 Zeichen/s 214.285 Zeichen/s 150.039 Zeichen/s 138.620 Zeichen/s
Llama3 Gesamtdauer 13.554 s 14.304 s 19.991 s 22.062 s
Llama2 Gesamtpunktzahl 8,008 6,591 5,013 3,957
Llama2-Ausgabezeit bis zum ersten Token 0.307 s 0.419 s 0.500 s 0.679 s
Llama2-Ausgabetoken pro Sekunde 145.595 Zeichen/s 134.502 Zeichen/s 92.853 Zeichen/s 78.532 Zeichen/s
Llama2 Gesamtdauer 20.712 s 23.018 s 32.448 s 38.923 s

UL-Procyon: KI-Bilderzeugung

Die Procyon AI-Benchmark zur Bildgenerierung bietet eine konsistente und genaue Methode zur Messung der KI-Inferenzleistung auf unterschiedlicher Hardware, von stromsparenden NPUs bis hin zu High-End-GPUs. Es umfasst drei Tests: Stable Diffusion XL (FP16) für High-End-GPUs, Stable Diffusion 1.5 (FP16) für mittelstarke GPUs und Stable Diffusion 1.5 (INT8) für stromsparende Geräte. Der Benchmark verwendet die optimale Inferenz-Engine für jedes System und gewährleistet so faire und vergleichbare Ergebnisse.

Beginnend mit Stable Diffusion 1.5 (FP16) erreichte die NVIDIA RTX PRO 6000 eine beeindruckende Gesamtpunktzahl von 8,869 und übertraf damit die RTX 5090 mit 8,193, die RTX 4090 mit 5,260 und die RTX 6000 Ada mit 4,230. Die PRO 6000 schloss die Bildgenerierung in 11.27 Sekunden ab, bei durchschnittlich 0.705 Sekunden pro Bild, und war damit die Schnellste in diesem Test. Dies zeigt, wie die für Workstations optimierte Abstimmung und der 96 GB GDDR7-Speicher eine dauerhaft hochpräzise Ausgabe ohne Kompromisse bei der Effizienz ermöglichen.

Im Stable Diffusion 1.5 (INT8)-Test, der die Leistung leichter quantisierter Inferenz misst, schnitten alle GPUs ähnlich ab. Die PRO 6000 erreichte 79,064 Punkte, nahezu identisch mit den 79,272 Punkten der RTX 5090, und lag vor der RTX 4090 (62,160) und der RTX 6000 Ada (55,901). Da INT8-Workloads weniger von Speicherbandbreite und -kapazität abhängen, waren die Unterschiede minimal, aber die PRO 6000 erzielte konsistente Ergebnisse mit einer durchschnittlichen Generierungszeit von 0.395 Sekunden pro Bild.

Der Stable Diffusion XL (FP16)-Test fordert GPUs mit längeren, anspruchsvolleren Inferenzläufen, die sowohl den Speicher als auch den anhaltenden Rechendurchsatz beanspruchen. Hier erreichte die PRO 6000 eine Gesamtpunktzahl von 6,991 und landete damit knapp hinter der RTX 5090 mit 7,179, aber deutlich vor der RTX 4090 mit 5,025 und der RTX 6000 Ada mit 3,043. Die Gesamtrenderzeit betrug 85.8 Sekunden bzw. 5.36 Sekunden pro Bild. Dies zeigt, dass die PRO 6000 erweiterte Generierungs-Workloads effizient und ohne Verlangsamungen bewältigt.

UL Procyon: KI-Bildgenerierung NVIDIA RTX PRO 6000 NVIDIA RTX 5090 NVIDIA RTX 4090 NVIDIA RTX 6000 Ada
Stabile Diffusion 1.5 (FP16) – Gesamtpunktzahl 8,869 8,193 5,260 4,230
Stabile Diffusion 1.5 (FP16) – Gesamtzeit 11.274 s 12.204 s 19.011 s 23.639 s
Stable Diffusion 1.5 (FP16) – Bildgenerierungsgeschwindigkeit 0.705 s/Bild 0.763 s/Bild 1.188 s/Bild 1.477 s/Bild
Stabile Diffusion 1.5 (INT8) – Gesamtpunktzahl 79,064 79,272 62,160 55,901
Stabile Diffusion 1.5 (INT8) – Gesamtzeit 3.162 s 3.154 s 4.022 s 4.472 s
Stabile Diffusion 1.5 (INT8) – Bildgenerierungsgeschwindigkeit 0.395 s/Bild 0.394 s/Bild 0.503 s/Bild 0.559 s/Bild
Stabile Diffusion XL (FP16) – Gesamtpunktzahl 6,991 7,179 5,025 3,043
Stabile Diffusion XL (FP16) – Gesamtzeit 85.819 s 83.573 s 119.379 s 197.172 s
Stabile Diffusion XL (FP16) – Bildgenerierungsgeschwindigkeit 5.364 s/Bild 5.223 s/Bild 7.461 s/Bild 12.323 s/Bild

Mixer 4.4

Blender ist eine Open-Source-Anwendung für 3D-Modellierung. Dieser Benchmark wurde mit dem Blender Benchmark-Tool durchgeführt. Das Ergebnis wird in Samples pro Minute gemessen, wobei höhere Werte eine bessere Leistung anzeigen.

In allen drei Szenen belegte die NVIDIA RTX PRO 6000 die Spitzenposition und demonstrierte die Vorteile ihrer Blackwell-Architektur und der erweiterten Speicherkapazität. In der Monster-Szene erreichte die PRO 6000 7,870.17 Samples pro Minute und lag damit vor der RTX 5090 mit 7,421.50, während die RTX 4090 und die RTX 6000 Ada mit 5,733.97 bzw. 5,632.60 folgten.

In der Junkshop-Szene behielt der PRO 6000 seine Führung mit 4,158.91 Samples pro Minute, verglichen mit 3,980.15 für den RTX 5090, 2,827.83 für den RTX 4090 und 2,663.77 für den RTX 6000 Ada. Schließlich erreichte der PRO 6000 in der Classroom-Szene, in der sowohl Shading als auch Speichereffizienz betont werden, 4,041.11 Samples pro Minute und lag damit erneut vor den 3,732.63 des RTX 5090 und deutlich vor dem RTX 4090 und dem RTX 6000 Ada mit 2,909.35 bzw. 2,818.83.

Blender 4.4 (höher ist besser) NVIDIA RTX PRO 6000 NVIDIA RTX 5090 NVIDIA RTX 4090 NVIDIA RTX 6000 Ada
Monster 7,870.17 7,421.50 5,733.97 5,632.60
Trödelladen 4,158.91 3,980.15 2,827.83 2,663.77
Klassenzimmer 4,041.11 3,732.63 2,909.35 2,818.83

Luxmark

Luxmark ist ein GPU-Benchmark, der LuxRender, einen Open-Source-Raytracing-Renderer, nutzt, um die Leistung eines Systems bei der Verarbeitung hochdetaillierter 3D-Szenen zu bewerten. Dieser Benchmark ist besonders relevant für die Bewertung der grafischen Rendering-Fähigkeiten von Servern und Workstations, insbesondere bei Anwendungen für visuelle Effekte und Architekturvisualisierung, bei denen eine präzise Lichtsimulation entscheidend ist.

Im Food-Szenentest führte die NVIDIA RTX PRO 6000 mit einem Ergebnis von 24,287 und übertraf damit die RTX 5090 mit 23,141, während die RTX 4090 und die RTX 6000 Ada mit 17,171 bzw. 14,873 folgten. Dies zeigt, wie die PRO 6000 auch bei hochdetaillierter Geometrie und Beleuchtung eine reibungslose Raytracing-Leistung ohne Stabilitätsverlust oder thermische Drosselung aufrechterhält.

In der anspruchsvolleren Hall-Szene, in der großflächige Geometrie und komplexe globale Beleuchtung im Vordergrund stehen, sicherte sich der PRO 6000 mit 52,588 erneut das Spitzenergebnis, knapp vor den 51,725 des RTX 5090 und deutlich vor dem RTX 4090 (38,887) und dem RTX 6000 Ada (32,132).

Luxmark (höher ist besser) NVIDIA RTX PRO 6000 NVIDIA RTX 5090 NVIDIA RTX 4090 NVIDIA RTX 6000 Ada
Lebensmittelpunktzahl 24,287 23,141 17,171 14,873
Hall-Ergebnis 52,588 51,725 38,887 32,132

Geekbench 6

Geekbench 6 ist ein plattformübergreifender Benchmark, der die Gesamtsystemleistung misst. Mit dem Geekbench-Browser können Sie jedes beliebige System damit vergleichen.

In diesem Test erreichte die NVIDIA RTX PRO 6000 einen GPU OpenCL-Score von 384,158 und übertraf damit die RTX 5090 (374,807), die RTX 4090 (333,384) und die RTX 6000 Ada (336,882). Der höhere Score der PRO 6000 spiegelt ihr optimiertes Workstation-Design, die verbesserte Speicherbandbreite und den professionellen Treiberstapel wider, die zusammen eine konstante Leistung bei einer Vielzahl rechenintensiver Workloads ermöglichen.

Geekbench (höher ist besser) NVIDIA RTX PRO 6000 NVIDIA RTX 5090 NVIDIA RTX 4090 NVIDIA RTX 6000 Ada
GPU OpenCL-Wertung 384,158 374,807 333,384 336,882

V-Ray

Die V-Ray Benchmark misst die Rendering-Leistung von CPUs, NVIDIA-GPUs oder beiden mithilfe fortschrittlicher V-Ray 6-Engines. Es nutzt Schnelltests und ein einfaches Bewertungssystem, um Benutzern die Bewertung und den Vergleich der Rendering-Leistung ihrer Systeme zu ermöglichen. Es ist ein unverzichtbares Tool für Profis, die effiziente Einblicke in die Leistung suchen.

In unserem Test erreichte die NVIDIA RTX PRO 6000 12,128 vpaths und platzierte sich damit zwischen der RTX 5090 (14,764) und der RTX 4090 (10,847). Die RTX 6000 Ada blieb mit 10,766 knapp zurück. Während die RTX 5090 in diesem GPU-intensiven Rendering-Test einen leichten Vorsprung behielt, zeigte die PRO 6000 eine starke und konstante Leistung, was ihre Workstation-orientierte Abstimmung und anhaltende Effizienz unter voller Rendering-Last unterstreicht.

V-Ray (höher ist besser) NVIDIA RTX PRO 6000 NVIDIA RTX 5090 NVIDIA RTX 4090 NVIDIA RTX 6000 Ada
vPfade 12,128 14,764 10,847 10,766

LM Studio Multi-Modell-Inferenztest

Für diese Testrunde haben wir LM Studio verwendet, um die Leistung der NVIDIA RTX PRO 6000 in verschiedenen gängigen großen Sprachmodellen zu bewerten, darunter GPT-OSS 120B, Gemma 3 (4B, 12B und 27B), Llama 3.1 (8B und 70B) und Llama 3.3 70B. Jedes Modell erhielt die gleiche Anweisung:

„Schreiben Sie eine 500 Wörter lange wissenschaftliche Arbeit über die Geschichte der Faultiere.“

Der Schwerpunkt dieses Tests liegt auf Tokens pro Sekunde (Durchsatz) und Gesamtzeit (Dauer der Fertigstellung), die zusammen zeigen, wie effizient der RTX PRO 6000 unterschiedliche Modellgrößen und -komplexitäten unter identischen Generierungsbedingungen verarbeitet.

Bei den Inferenztests von LM Studio zeigte die NVIDIA RTX PRO 6000 eine hervorragende Leistung und Skalierbarkeit über eine breite Palette von Modellgrößen hinweg, von kleineren 4B-Parametermodellen bis hin zu massiven Konfigurationen der 120B-Klasse.

Das Highlight dieses Tests war der OpenAI GPT-OSS 120B, bei dem die RTX PRO 6000 163.1 Token pro Sekunde produzierte und die 500-Wort-Generierung in 9.54 Sekunden abschloss. Dieses Ergebnis ist bemerkenswert, da Karten wie die RTX 5090 ein 120B-Modell nicht laden oder ausführen können und aufgrund des begrenzten VRAM oft nicht einmal 70B-Modelle verarbeiten können. Der 96 GB GDDR7-Speicher der PRO 6000 ermöglicht die lokale Verarbeitung dieser riesigen Modelle und macht sie damit zu einer einzigartigen Leistung unter den Workstation-GPUs.

Bei den kleineren Modellen erreichte der Gemma 3.4 B den höchsten Durchsatz und erledigte die Aufgabe mit 226.7 Token pro Sekunde in 3.51 Sekunden. Dicht dahinter folgte der Llama 3.1 8B Instruct mit 197.1 Token pro Sekunde und einer Gesamtzeit von 4.17 Sekunden. Diese Läufe zeigen die hohe Effizienz und schnelle Reaktion des PRO 6000 bei mittleren Inferenz-Workloads.

Am oberen Ende erreichten die Modelle Llama 3.1 70B Instruct und Llama 3.3 70B durchschnittlich etwa 31.8 Token pro Sekunde mit Gesamtgenerierungszeiten von 27.2 Sekunden bzw. 25.3 Sekunden und zeigten trotz ihrer Größe eine konstante Ausgabe.

Insgesamt bietet die RTX PRO 6000 hervorragende Stabilität, Durchsatz und Leistungsfähigkeit bei der Ausführung groß angelegter Modelle. Dank ihrer Speicherkapazität von 96 GB bewältigt sie Workloads, die die Grenzen von Consumer-GPUs überschreiten. Damit ist sie eine ausgezeichnete Wahl für Entwickler, Forscher und Profis, die zuverlässige lokale Leistung für fortgeschrittene KI und die Entwicklung generativer Modelle benötigen.

LM Studio (Ergebnisse der Modellinferenz)
Modell Tokens/Sekunde Zeit bis zum ersten Token (s) Gesamtzeit (s) Eingabeaufforderungstoken Vorhergesagte Token Gesamtanzahl der Token
OpenAI GPT-OSS 120B 163.15 0.193 9.543 81 1,557 1,638
Gemma 3 4B 226.73 0.113 3.51 25 796 821
Gemma 3 12B 117.15 0.068 8.06 25 944 969
Gemma 3 27B 68.06 0.221 12.048 25 820 845
Meta Llama 3.1 8B Anweisung 197.07 0.062 4.171 49 822 871
Meta Llama 3.1 70B Anweisung 31.84 0.159 27.227 49 867 916
Meta Lama 3.3 70B 31.74 0.323 25.329 49 804 853

NVIDIA RTX PRO 6000 Stromverbrauch

Um die Effizienz von KI-Workloads in der Praxis zu bewerten, haben wir den UL Procyon AI Image Generation Benchmark, insbesondere den Stable Diffusion XL FP16-Test, verwendet. Dieser Test konzentriert sich auf das Intervall zwischen dem zweiten und dem letzten generierten Bild und erfasst die Zeit bis zum Abschluss des Intervalls, die Spitzen- und Dauerleistungsaufnahme sowie die Leerlaufleistung des Systems nach Abschluss.

Während unserer Tests hielt die RTX PRO 6000 unter Dauerlast eine durchschnittliche Systemleistung von 918.5 W aufrecht, mit einem Spitzenwert von 1,036.3 W. Nach Abschluss der Belastung pendelte sich die Leerlaufleistung bei 152.3 W ein. Das gesamte Testintervall dauerte 5.3 Sekunden und verbrauchte insgesamt 1.35 Wh Energie. Diese Ergebnisse zeigen eine hervorragende Leistungseffizienz für eine GPU der Workstation-Klasse, die die Leistungsaufnahme gut kontrolliert und gleichzeitig eine hohe Leistung bei längeren Inferenz-Workloads aufrechterhält.

Im Vergleich zu anderen GPUs liegt die RTX PRO 6000 beim Gesamtenergieverbrauch eng an der RTX 4090, weist aber gleichzeitig eine schnellere Fertigstellungszeit auf und übertrifft die RTX 6000 Ada sowohl in Energieeffizienz als auch Geschwindigkeit deutlich. Interessanterweise weisen die neuen Blackwell-Karten, die den GB202-Chip verwenden, unter dieser Belastung sehr ähnliche Effizienzeigenschaften auf, wobei nur geringfügige Unterschiede beim Gesamtenergieverbrauch auftreten, die wahrscheinlich auf die höhere TDP der PRO 6000 zurückzuführen sind. Dies deutet darauf hin, dass NVIDIAs neueste Generation die Leistung pro Watt weiter verfeinert, anstatt sie drastisch zu verändern.

Stabile Diffusion XL FP16 Bildleistung verwendet (niedriger ist besser) NVIDIA RTX PRO 6000 NVIDIA RTX 5090 NVIDIA RTX 4090 NVIDIA RTX 6000 Ada
Stromverbrauch 1.35Wh 1.16Wh 1.35Wh 1.76Wh
Testdauer 5.3er-Jahre 5.1er-Jahre  7.3er-Jahre 12.6er-Jahre

Fazit

Die NVIDIA RTX PRO 6000 ist insgesamt die leistungsfähigste Workstation-GPU für professionelle Workflows und bietet Leistung auf Rechenzentrumsniveau im Desktop-Format. Mit einem Verkaufspreis von rund 8,500 US-Dollar zum Testzeitpunkt richtet sie sich an Teams, die Zuverlässigkeit, hohe Rechendichte und einen riesigen ECC-Speicherpool für die Produktionsarbeit benötigen. Mit 24,064 CUDA-Kernen, 752 Tensor-Kernen, 96 GB GDDR7 ECC und Blackwell-Architektur bewältigt sie Workloads, die die praktischen Grenzen von Consumer-Karten wie der GeForce RTX 5090 oder 4090 überschreiten. Einzelne Benchmarks zeigen zwar, dass eine Consumer-Karte in Sachen Geschwindigkeit überlegen ist, aber insgesamt ist die RTX PRO 6000 hinsichtlich Kapazität, Stabilität, Treibern und ISV-Support die bessere Wahl für den professionellen Einsatz.

Für KI und ML ist der 96-GB-Pool das A und O. Er ermöglicht lange Kontextinferenzen und sehr große lokale Checkpoints, was wir durch die Ausführung von Modellen der Klassen 70B bis 120B unter Beibehaltung hoher Token pro Sekunde demonstriert haben. Rendering und Simulation profitieren ebenfalls vom größeren L2-Cache und der größeren Speicherbandbreite und liefern so eine vorhersehbare, anhaltende Leistung in Blender, V-Ray und LuxMark unter längerer Belastung.

Vorderansicht der Nvidia RTX PRO 6000.

Die Karte ist ideal für echte Workstations. Sie verfügt über ein echtes Dual-Slot-Design mit PCIe 5.0 x16-Schnittstelle, vier DisplayPort 2.1b-Ausgängen und einem 16-poligen Stromeingang. Planen Sie ein hochwertiges Netzteil und eine gute Gehäusebelüftung ein, um die 600-W-Platinenleistung zu unterstützen. Multi-GPU-Unterstützung ist ebenfalls problemlos möglich, mit OEM- und ISV-Unterstützung für 2 bis 8 GPUs für KI-, Rendering- und Compute-Stacks.

Wenn Ihre Arbeit LLMs mit langem Kontext, sehr große Szenen oder hochpräzise Simulationen auf einem einzelnen Knoten umfasst, rechtfertigt die RTX PRO 6000 ihren Aufpreis mit einer Kapazität und Konsistenz, mit der andere Karten nicht mithalten können.

Nvidia RTX PRO 6000 Produktseite

Beteiligen Sie sich an StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed

Dylan Dougherty

K-12-Netzwerkadministrator mit Fachwissen in Cisco-Netzwerken, IP-Sicherheit und NAC-Lösungen. UniFi-Enthusiast und Heimlaborant, der Netzwerk- und Sicherheitsprodukte testet und überprüft.