Startseite UnternehmenAI Überarbeitung des NVIDIA Jetson AGX Orin: Kleines Paket, große Sprachmodelle

Überarbeitung des NVIDIA Jetson AGX Orin: Kleines Paket, große Sprachmodelle

by Colin Balzer

Wir schauen uns den Jetson AGX Orin noch einmal an und zeigen, wie man ein Chat-GPT-Typ-LLM auf das Gerät mit geringem Stromverbrauch bekommt.

Anmerkung der Redaktion: Wir hatten die Gelegenheit, uns mit einem neuen Mitglied unseres Teams zusammenzusetzen und uns noch einmal eingehend mit der NVIDIA Jetson-Plattform zu befassen. Sehen Sie sich unseren Artikel vom letzten Jahr an, in dem wir ein Visionsmodell für eine endgültige Produktversion von Jetson, dem Lenovo SE70, ausgeführt haben.

Mit der Jetson-Plattform von NVIDIA können Entwickler KI-Optionen erkunden, die speziell auf die Edge-KI-Entwicklung zugeschnitten sind. Diese Systeme ermöglichen GPU-gestützte Serverleistung in einem Paket, das Sie in einer Hand halten können. Ein großes Dankeschön an NVIDIA, dass sie uns das Jetson AGX Orin Development Kit zum Ausprobieren zur Verfügung gestellt haben, damit wir sehen können, wie einfach es sein kann, ein eigenes lokales LLM zu haben.

NVIDIA Jetson AGX ORINDas Jetson AGX Orin DevKit hat ein kleines Formfaktor-Design, ist nur 11 cm oder etwa 4.3 Zoll breit und lang und 7.2 cm (etwa 2.8 Zoll) hoch. Im Inneren des Jetson AGX Orin Dev Kit befindet sich eine 2048-Core NVIDIA Ampere-Architektur-GPU mit 64 Tensor-Cores und einer maximalen Frequenz von 1.3 GHz. Es gibt auch eine Arm Cortex CPU 12-Core A78AE v8.2 64-Bit-CPU mit 3 MB L2-Cache, 6 MB L3-Cache und einer maximalen Frequenz von 2.20 GHz.

NVIDIA Jetson AGX ORIN vorne

Diese beiden Leistungskomponenten, gepaart mit 64 GB LPDDR5-Vereinheitlichtem Speicher mit Geschwindigkeiten von 204.8 GB/s, ergeben zusammen die beeindruckendste Leistung dieser kleinen Maschine: 275 TOPS in Modellen mit 64 GB von der kleinen GPU und DLA. Das sind 8.6 Mal so viele TOPS wie beim Vorgänger von NVIDIA, dem Jetson AGX Xavier, der nur 32 TOPS lieferte.

NVIDIA Jetson AGX ORIN-Hauptplatine

Unter der Haube befinden sich außerdem zwei M.2-Steckplätze: ein PCIe Gen 4×4 Key M für zusätzlichen Speicher über den 64 GB eMMC hinaus und ein Gen 4×1 Key E für drahtlose Verbindungen. Online-Konnektivität ist jedoch kein Problem, da ein 10-Gigabit-RJ45-Anschluss vorhanden ist. Außerdem gibt es einen 40-poligen Header (für UART, SPI, I2S, I2C, CAN, PWM, DMIC und GPIO), einen 12-poligen Automatisierungs-Header, einen 10-poligen Audio-Panel-Header, einen 10-poligen JTAG-Header, einen 4-poligen Lüfter-Header, einen 2-poligen RTC-Batterie-Backup-Anschluss sowie einen 16-spurigen MIPI CSI-2-Anschluss für CSI-Kameras.

Auch an externen Anschlussmöglichkeiten mangelt es nicht. Es gibt sechs USB-Anschlüsse: zwei USB-A 3.2 Gen 2, zwei USB-A 3.2 Gen 1 und USB-C 3.2 Gen 2. Von diesen beiden USB-C-Anschlüssen kann einer Geschwindigkeiten von bis zu 20 Gbps für Flashen und Datenübertragung liefern, und der andere ist für die 60-W-Stromversorgung vorgesehen. Wenn Sie diesen zusätzlichen USB-C-Anschluss benötigen, gibt es einen zusätzlichen Stromversorgungsanschluss über eine DC-Strombuchse. Das System wird jedoch nur mit seinem USB-C-Netzteil geliefert. Es gibt auch einen Micro-SD-Kartensteckplatz für eine schnelle Speicheroption und einen Micro-USB-B-Anschluss, der als serieller Debug-Anschluss dient.

Externer PCIe-Steckplatz von NVIDIA Jetson AGX ORIN

Unter einer magnetischen Abdeckung verbirgt sich der externe PCIe Gen 4×16-Steckplatz. Darüber hinaus unterstützt der externe PCIe-Steckplatz bis zu einer PCIe 4×8-Verbindung. Da es keine Möglichkeit gibt, eine GPU intern mit Strom zu versorgen, eignet sich der Steckplatz am besten für etwas wie eine Hochgeschwindigkeits-NIC. Für eine dedizierte Anzeigeoption verfügt der Orin über einen DisplayPort 1.4.

Jetson AGX Xavier gegen Jetson AGX Orin

Merkmal Jetson AGX Xavier 64GB Jetson AGX Orin 64 GB Entwicklungskit
KI-Leistung 32 TOPS 275 TOPS
GPU NVIDIA Volta-GPU mit 512 Kernen und 64 Tensorkernen 2048-Core NVIDIA Ampere GPU mit 64 Tensor-Cores
Maximale GPU-Frequenz Keine Angabe 1.3GHz
CPU 8-Core NVIDIA Carmel Arm v8.2 64-Bit-CPU, 8 MB L2 + 4 MB L3 12-Core Arm Cortex-A78AE v8.2 64-Bit-CPU, 3 MB L2 + 6 MB L3
Maximale CPU-Frequenz 2.2GHz 2.2GHz
DL-Beschleuniger 2x NVDLA v1 Keine Angabe
DLA Max-Frequenz 1.4GHz Keine Angabe
Vision-Beschleuniger 2x PVA 1x PVA v2
Memory 64 GB LPDDR4x, 136.5 GB/s 64 GB LPDDR5, 204.8 GB/s
Lagerung 32 GB eMMC 5.1, 64 GB in der Industrieversion verfügbar Keine Angabe
Videocodierung 4x 4K60 (H.265), 8x 4K30 (H.265), 16x 1080p60 (H.265), 32x 1080p30 (H.265) Keine Angabe
Video Decode 2x 8K30 (H.265), 6x 4K60 (H.265), 12x 4K30 (H.265), 26x 1080p60 (H.265), 52x 1080p30 (H.265) Keine Angabe
CSI-Kamera Bis zu 6 Kameras (36 über virtuelle Kanäle), 16 Lanes MIPI CSI-2, 8 Lanes SLVS-EC, D-PHY 1.2 (bis zu 40 Gbps), C-PHY 1.1 (bis zu 62 Gbps) Keine Angabe
PCIe 1×8, 1×4, 1×2, 2×1 (PCIe Gen4, Root-Port und Endpunkt) x16 PCIe-Steckplatz mit Unterstützung für x8 PCIe Gen4, M.2 Key M-Steckplatz mit x4 PCIe Gen4, M.2 Key E-Steckplatz mit x1 PCIe Gen4
USB 3x USB 3.2 Gen2 (10 Gbit/s), 4x USB 2.0 USB-C für Stromversorgung (15–60 W), ein USB-C zum Flashen und Programmieren, Micro B für serielles Debuggen, 2 x USB 3.2 Gen2 (USB Typ C), 2 x USB 3.2 Gen2 (USB Typ A), 2 x USB 3.2 Gen1 (USB Typ A), USB 2.0 (USB Micro B)
Networking 1x GbE RJ45-Anschluss mit bis zu 10 GbE
Display 3 Multimode DP 1.4/eDP 1.4/HDMI 2.0 1x DisplayPort 1.4a (+MST)-Anschluss
Andere I / O 5x UART, 3x SPI, 4x I2S, 8x I2C, 2x CAN, PWM, DMIC, GPIOs 40-poliger Header (UART, SPI, I2S, I2C, CAN, PWM, DMIC, GPIO), 12-poliger Automatisierungs-Header, 10-poliger Audio-Panel-Header, 10-poliger JTAG-Header, 4-poliger Lüfter-Header, 2-poliger RTC-Batterie-Backup-Anschluss, microSD-Steckplatz, DC-Stromanschluss, Power-, Force-Recovery- und Reset-Tasten
Power 10-30W 15–60 W (über USB-C)

AI Side/NVIDIA SDK-Einrichtung

Large Language Models (LLMs) sind KIs wie ChatGPT oder Ollama, die mit großen Datenmengen trainiert wurden. Es ist schwer vorstellbar, dass man auf so kleinem Raum ein lokales, privates KI-Modell ausführen könnte. Derzeit tauchen auf dem Markt „AI PC“-Laptops von Intel, AMD und Snapdragon mit dedizierten NPUs auf. Diese Geräte, die der Jetson-Plattform ähneln, verwenden dediziertes Silizium auf dem Chip, das über zusätzliche KI-Beschleunigungsfunktionen verfügt. Konzeptionell sind diese Komponenten so konzipiert, dass sie ähnlich wie unser Gehirn funktionieren (daher das „neuronale“ in NPU) und die gleichzeitige Verarbeitung großer Datenmengen ermöglichen. Die Einbeziehung von NPUs bedeutet, dass CPU und GPU für die Verarbeitung anderer Aufgaben frei werden, was zu einem sowohl leistungs- als auch verarbeitungstechnisch deutlich effizienteren Computer führt.

Allerdings sind die 40 TOPS von Intels Lunar Lake oder AMDs 50 TOPS-Plattform immer noch nicht so groß wie die kombinierte Leistung der GPU und CPU der Jetson Orin Devkits, die bei 275 TOPS liegt. Das ist mehr als genug Leistung, um eine KI lokal in Ihrem Büro oder sogar in Ihrem Haus/Heimlabor zu betreiben! Weitere Komponenten, die die KI unterstützen, sind die beiden NVDLA v2 Deep Learning (DL)-Beschleuniger, die die Geschwindigkeit erhöhen, mit der das System KI-Prozesse ausführen kann, und ein einzelner Vision-Beschleuniger, der die Geschwindigkeit erhöht, mit der Computer Vision Bilder verarbeiten kann.

Die Einrichtung des Systems zum Ausführen von KI wird durch die zahlreichen Anleitungen von NVIDIA vereinfacht. Um zu beginnen, müssen Sie sicherstellen, dass Sie Ihren Jetson mit Ubuntu flashen, und dann diese 6 Schritte ausführen:

Schritt 1: NVIDIA SDK Manager installieren

Vollständige Anweisungen und Downloads finden Sie auf der NVIDIA SDK-Website.. Für diesen Vorgang ist ein kostenloser Entwickleraccount erforderlich.

Schritt 2: Öffnen Sie den auf Ubuntu installierten NVIDIA SDK Manager

Schritt 3: Entwicklungsumgebung

Mit diesem Schritt bestätigen Sie, dass Sie alles in Ordnung haben. Bestätigen Sie Ihr Produkt, Ihre Systemkonfigurationen, Ihre SDK-Version und zusätzliche SDKs. Für unser Setup haben wir das Jetson AGX Orin Development Kit, Ubuntu 22.04, JetPack 6.0 und Deep Stream 7.0 verwendet.

Schritt 4: Details und Lizenzierung

Dieser Schritt dient als Installationsbildschirm und stellt sicher, dass alle Host- und Zielkomponenten heruntergeladen und installiert werden. Hier können Sie auch den richtigen Download-Speicherort auswählen. Das Hostsystem benötigt 15 GB Speicherplatz und das Zielsystem 17 GB Speicherplatz.

Schritt 5: Einrichtungsprozess

Dieser Schritt dient als Bestätigungsfenster, um die Einrichtung abzuschließen. Hier wählen Sie den Wiederherstellungsmodus aus und legen fest, ob es sich um einen manuellen oder automatischen erzwungenen Wiederherstellungsmodus handeln soll. Der automatische Modus ist für den Fall gedacht, dass das System bereits geflasht und ausgeführt wurde. Von hier aus können Sie Ihre IP-Adresse einrichten/bestätigen, einen Benutzernamen und ein Passwort hinzufügen, Ihre OEM-Konfiguration und das Zielspeichergerät auswählen. Sobald alles eingestellt ist, können Sie auf die Option „Flash“ klicken.

Schritt 6: Zusammenfassung finalisieren

Schließlich wird mit diesem Schritt das System gestartet. Danach können Sie den Code ausführen:

jetson-containers run --name ollama $(autotag ollama)

Durch Ausführen der ersten Codezeile wird der Ollama LLM. Ollama ist eine beliebte Plattform, die die lokale Einrichtung und Entwicklung von LLMs einfach und unkompliziert macht und sogar innerhalb oder außerhalb des Containers eingerichtet werden kann. Es enthält eine integrierte Modellbibliothek mit vorquantisierten Gewichten und wird automatisch heruntergeladen und im Hintergrund mit llama.cpp als Inferenz ausgeführt. Der Ollama-Container wurde mit CUDA-Unterstützung kompiliert und ist daher perfekt für die Verwendung auf dem Jetson AGX Orin geeignet. Führen Sie anschließend den Code aus:

docker run -it --rm --network=host --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main

Anschließend können Sie über die Geräte-IP oder DNS-Adresse auf Port 8080 auf das Open Web User Interface (OWUI) zugreifen, das als Chatbot fungiert. Das OWUI dient als Plug-in für die API des Ollama-Servers, kann aber auch OpenAIs ChatGPT, Metas Llama-3 oder Microsofts Phi-3 Mini als Plug-ins verwenden.

Obwohl bei einem so geringen Stromverbrauch die Zeit bis zum ersten Token bei größeren Modellen deutlich länger ist, ist die Plattform nach dem Laden immer noch in der Lage, eine akzeptable Leistung zu liefern.

Fazit

Das Jetson AGX Orin Development Kit bietet erhebliche Leistung in einem kompakten Formfaktor. Da KI-PC-Lösungen immer relevanter werden, sticht die Jetson-Plattform hervor, insbesondere wenn man die TOPS-Einschränkungen von NPUs berücksichtigt, die in neue CPU-Versionen integriert sind. Das Jetson AGX Orin bietet Entwicklern, insbesondere solchen, die ARM-native Anwendungen benötigen, ein robustes Sprungbrett und hilft bei der Modellvalidierung und -verfeinerung.

Obwohl es sich um ein Entwicklungskit handelt, ist es aufgrund seiner Benutzerfreundlichkeit und ausreichenden Leistung ein hervorragender Ausgangspunkt für Unternehmen, die ihre KI-Reise beginnen. Die Jetson-Plattform zeigt das enorme Potenzial von KI-Lösungen im kleinen Formfaktor – elegant gestaltet, extrem energieeffizient und in der Lage, 275 TOPS KI-Leistung zu liefern. Diese Kombination macht die Jetson-Plattform mit viel größeren, im Rack montierten KI-Servern vergleichbar.

Die umfassenden Anleitungen von NVIDIA vereinfachen das Flashen und Bereitstellen einer Vielzahl von KI-Modellen, wobei Generative KI nur ein Teil des Puzzles ist. Für Unternehmen, die bereit sind, KI zu entwickeln und bereitzustellen, bietet das Jetson AGX Orin Development Kit eine perfekte Mischung aus Energieeffizienz, geringem Platzbedarf und herausragender KI-Leistung und ist damit die ideale Wahl für die Erkundung und Implementierung von KI-Technologien.

Jetson AGX Orin Entwicklungskit

Beteiligen Sie sich an StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed