Startseite Unternehmen NVIDIA beschleunigt die DPU-Einführung über das Linux Foundation Project

NVIDIA beschleunigt die DPU-Einführung über das Linux Foundation Project

by Brian Beeler

Eines der weniger bekannten Produkte, an denen Mellanox vor der NVIDIA-Übernahme arbeitete, war eine Datenverarbeitungseinheit (DPU) namens BlueField. Der Vorschlag vor sechs Jahren ähnelt dem heutigen: Speicher (und jetzt auch Beschleuniger) können direkt auf das Netzwerk zugreifen, ohne dass die traditionelle x86-Architektur im Weg steht. Schließlich sind CPUs besser für Anwendungen geeignet als das PCIe-Verkehrsspurmanagement. Die Einführung von BlueField verlief jedoch sehr langsam; Heutzutage gibt es weniger als eine Handvoll kommerzieller Unternehmen, die DPUs nutzen. NVIDIA hat einen neuen Vorstoß, um das zu ändern.

Eines der weniger bekannten Produkte, an denen Mellanox vor der NVIDIA-Übernahme arbeitete, war eine Datenverarbeitungseinheit (DPU) namens BlueField. Der Vorschlag vor sechs Jahren ähnelt dem heutigen: Speicher (und jetzt auch Beschleuniger) können direkt auf das Netzwerk zugreifen, ohne dass die traditionelle x86-Architektur im Weg steht. Schließlich sind CPUs besser für Anwendungen geeignet als das PCIe-Verkehrsspurmanagement. Die Einführung von BlueField verlief jedoch sehr langsam; Heutzutage gibt es weniger als eine Handvoll kommerzieller Unternehmen, die DPUs nutzen. NVIDIA hat einen neuen Vorstoß, um das zu ändern.

Warum überhaupt DPUs?

Der Reiz der DPU ist ziemlich faszinierend und deshalb investiert NVIDIA stark in ihren Erfolg. Im Vergleich zu den traditionelleren Hochgeschwindigkeits-Ethernet-NICs, die die meisten kennen und lieben, verfügen DPUs einfach über mehr Rechenleistung an Bord, sodass sie eher wie Mini-Computer als wie Vehikel für die Datenübertragung aussehen. Fairerweise muss man jedoch sagen, dass das Hauptziel der DPU im Zusammenhang mit der Speicherung darin besteht, Daten schnell zu verschieben. Nur kann diese Aktion jetzt in einem JBOF durchgeführt werden, ohne dass x86 überhaupt erforderlich ist.

Riesige Daten Ceres DPU

NVIDIA DPU im VAST-Datenknoten

Wir haben dies kürzlich in einigen Fällen gesehen, wobei einer das NVIDIA-Produkt nutzte und ein anderer seine eigene DPU einsetzte. VAST Data nutzt die NVIDIA DPU in ihren Datenknoten, bei denen es sich nun um extrem dichte 1U-Boxen handelt, die sich 675 TB Roh-Flash teilen können. Es gibt jedoch alternative Routen; Fungible hat einen Plan zur Disaggregation und nutzt dabei seine eigene DPU. Wir hatten ihre Speicherarray im Labor, und sie haben auch kürzlich eine angekündigt GPU-Aufwand.

Fungible FS1600 voll im Inneren

Fungibles Speicherarray – DPUs im Inneren

Wenn all diese DPU-Gespräche überwältigend klingen, kann man Ihnen kaum die Schuld dafür geben. Die Art und Weise, wie Daten verwaltet und verschoben werden, hat sich schon lange nicht mehr grundlegend verändert. Wir haben ein Podcast mit NVIDIA über DPUs Aus Sicht der Lagerung ist das eine gute Vorstellung davon, was auf dem Markt vor sich geht.

DPUs sind hart

Selbst nach mehr als sechs Jahren Arbeit haben wir nur zwei Beispiele von DPUs gesehen, die in der Praxis gut funktionieren, und wir können wahrscheinlich weniger als eine Handvoll Unternehmen nennen, die sich auch nur an der Laborvalidierung versucht haben. Warum das? Den Aussagen von Systemanbietern zufolge ist es wirklich schwierig, BlueField zu nutzen. Es gibt eine enorme Menge an Softwarearbeit, die erledigt werden muss, und da es sich bei den Karten bisher nicht um einfache Drop-and-go-Produkte handelt, ist der Lift viel schwerer. Kombiniert man dies und die Tatsache, dass traditionelle Speicherunternehmen nur ungern auf Spitzentechnologie setzen, kombiniert mit der Tatsache, dass jede DPU einen anderen Codierungsansatz erfordert, kommt es bei uns nur zu einer geringen DPU-Einführung.

NVIDIA ist sich dessen natürlich bewusst und benötigt dringend schnellere Fahrzeuge, um Daten in ihre GPUs zu übertragen. Fairerweise muss man sagen, dass dies auch von Kunden gewünscht wird, insbesondere bei HPC-Workloads, bei denen es ein Preisziel ist, teure GPU-Investitionen dauerhaft betriebsbereit zu halten. Daher hat sich NVIDIA gestern bemüht, diese Probleme bei der Einführung zu lindern.

NVIDIA ist Gründungsmitglied des Open Programmable Infrastructure (OPI)-Projekts der Linux Foundation. Grundsätzlich hat NVIDIA seine DOCA-Netzwerksoftware-APIs allgemein verfügbar gemacht. Dies bedeutet, dass die umfangreiche Integrationsarbeit zur Inbetriebnahme einer DPU jetzt möglicherweise schneller erfolgen sollte.

Das „OPI-Projekt zielt darauf ab, ein von der Community gesteuertes, auf Standards basierendes, offenes Ökosystem zur Beschleunigung von Netzwerk- und anderen Rechenzentrumsinfrastrukturaufgaben mithilfe von DPUs zu schaffen“, so a Blog-Post von NVIDIA. Das ist natürlich eine gute Sache. Organisationen und Systemanbieter, für die die DPU-Grenze bisher zu hoch war, um sie zu überwinden, sollten nun einen viel einfacheren Weg zur DPU-Einführung haben.

NVIDIA teilte weiter mit, was sie anbieten wollen;

DOCA umfasst Treiber, Bibliotheken, Dienste, Dokumentation, Beispielanwendungen und Verwaltungstools, um die Entwicklung und Leistung von Anwendungen zu beschleunigen und zu vereinfachen. Es ermöglicht Flexibilität und Portabilität für BlueField-Anwendungen, die mit beschleunigten Treibern oder Low-Level-Bibliotheken wie DPDK, SPDK, Open vSwitch oder Open SSL geschrieben wurden. Wir planen, diese Unterstützung fortzusetzen. Als Teil von OPI können Entwickler eine gemeinsame Programmierschicht erstellen, um viele dieser offenen Treiber und Bibliotheken mit DPU-Beschleunigung zu unterstützen.

Was kommt als nächstes für DPUs?

Basierend auf dem, was wir von VAST und Fungible gesehen haben, ist die DPU-Welt sehr real und bereit, einen massiven Einfluss auf das Rechenzentrum und die Cloud zu haben. Die Einführung war eine Herausforderung, da die Softwareintegration schwierig ist. Darüber hinaus ist die Hardware kein direkter Ersatz für Netzwerkkarten. Nicht, dass dies der Fall wäre, aber das ist nicht so, als würde man durch den Austausch von NICs von 25 GbE auf 200 GbE wechseln. Der Aufwand zur Integration von DPUs ist alles andere als trivial.

NVIDIA-DPU

NVIDIA-DPU

Initiativen wie diese sollten der Branche weiterhelfen, wenn auch nur auf NVIDIA-Chips. DPUs bieten viel Potenzial, wenn es darum geht, die Infrastruktur schneller, sicherer und letztendlich effizienter zu machen. Da fast jedes große Unternehmen an umweltfreundlichen Initiativen arbeitet, ist das Rechenzentrum ein guter Ort, um mit der Einführung moderner Infrastrukturen zu beginnen, die nicht die gleichen Abhängigkeiten aufweisen wie der Legacy-Stack.

Wir sind zuversichtlich, dass dieser Schritt hin zu Open Source den DPU-Stillstand beseitigen wird, denn was mit dieser Technologie möglich ist, ist ziemlich bemerkenswert.

Beteiligen Sie sich an StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | Facebook | TikTok | RSS Feed