Wir schauen uns den Jetson AGX Orin noch einmal an und zeigen, wie man ein Chat-GPT-Typ-LLM auf das Gerät mit geringem Stromverbrauch bekommt.
Anmerkung der Redaktion: Wir hatten die Gelegenheit, uns mit einem neuen Mitglied unseres Teams zusammenzusetzen und uns noch einmal eingehend mit der NVIDIA Jetson-Plattform zu befassen. Sehen Sie sich unseren Artikel vom letzten Jahr an, in dem wir ein Visionsmodell für eine endgültige Produktversion von Jetson, dem Lenovo SE70, ausgeführt haben.
Mit der Jetson-Plattform von NVIDIA können Entwickler KI-Optionen erkunden, die speziell auf die Edge-KI-Entwicklung zugeschnitten sind. Diese Systeme ermöglichen GPU-gestützte Serverleistung in einem Paket, das Sie in einer Hand halten können. Ein großes Dankeschön an NVIDIA, dass sie uns das Jetson AGX Orin Development Kit zum Ausprobieren zur Verfügung gestellt haben, damit wir sehen können, wie einfach es sein kann, ein eigenes lokales LLM zu haben.
Das Jetson AGX Orin DevKit hat ein kleines Formfaktor-Design, ist nur 11 cm oder etwa 4.3 Zoll breit und lang und 7.2 cm (etwa 2.8 Zoll) hoch. Im Inneren des Jetson AGX Orin Dev Kit befindet sich eine 2048-Core NVIDIA Ampere-Architektur-GPU mit 64 Tensor-Cores und einer maximalen Frequenz von 1.3 GHz. Es gibt auch eine Arm Cortex CPU 12-Core A78AE v8.2 64-Bit-CPU mit 3 MB L2-Cache, 6 MB L3-Cache und einer maximalen Frequenz von 2.20 GHz.
Diese beiden Leistungskomponenten, gepaart mit 64 GB LPDDR5-Vereinheitlichtem Speicher mit Geschwindigkeiten von 204.8 GB/s, ergeben zusammen die beeindruckendste Leistung dieser kleinen Maschine: 275 TOPS in Modellen mit 64 GB von der kleinen GPU und DLA. Das sind 8.6 Mal so viele TOPS wie beim Vorgänger von NVIDIA, dem Jetson AGX Xavier, der nur 32 TOPS lieferte.
Unter der Haube befinden sich außerdem zwei M.2-Steckplätze: ein PCIe Gen 4×4 Key M für zusätzlichen Speicher über den 64 GB eMMC hinaus und ein Gen 4×1 Key E für drahtlose Verbindungen. Online-Konnektivität ist jedoch kein Problem, da ein 10-Gigabit-RJ45-Anschluss vorhanden ist. Außerdem gibt es einen 40-poligen Header (für UART, SPI, I2S, I2C, CAN, PWM, DMIC und GPIO), einen 12-poligen Automatisierungs-Header, einen 10-poligen Audio-Panel-Header, einen 10-poligen JTAG-Header, einen 4-poligen Lüfter-Header, einen 2-poligen RTC-Batterie-Backup-Anschluss sowie einen 16-spurigen MIPI CSI-2-Anschluss für CSI-Kameras.
Auch an externen Anschlussmöglichkeiten mangelt es nicht. Es gibt sechs USB-Anschlüsse: zwei USB-A 3.2 Gen 2, zwei USB-A 3.2 Gen 1 und USB-C 3.2 Gen 2. Von diesen beiden USB-C-Anschlüssen kann einer Geschwindigkeiten von bis zu 20 Gbps für Flashen und Datenübertragung liefern, und der andere ist für die 60-W-Stromversorgung vorgesehen. Wenn Sie diesen zusätzlichen USB-C-Anschluss benötigen, gibt es einen zusätzlichen Stromversorgungsanschluss über eine DC-Strombuchse. Das System wird jedoch nur mit seinem USB-C-Netzteil geliefert. Es gibt auch einen Micro-SD-Kartensteckplatz für eine schnelle Speicheroption und einen Micro-USB-B-Anschluss, der als serieller Debug-Anschluss dient.
Unter einer magnetischen Abdeckung verbirgt sich der externe PCIe Gen 4×16-Steckplatz. Darüber hinaus unterstützt der externe PCIe-Steckplatz bis zu einer PCIe 4×8-Verbindung. Da es keine Möglichkeit gibt, eine GPU intern mit Strom zu versorgen, eignet sich der Steckplatz am besten für etwas wie eine Hochgeschwindigkeits-NIC. Für eine dedizierte Anzeigeoption verfügt der Orin über einen DisplayPort 1.4.
Jetson AGX Xavier gegen Jetson AGX Orin
Merkmal | Jetson AGX Xavier 64GB | Jetson AGX Orin 64 GB Entwicklungskit |
---|---|---|
KI-Leistung | 32 TOPS | 275 TOPS |
GPU | NVIDIA Volta-GPU mit 512 Kernen und 64 Tensorkernen | 2048-Core NVIDIA Ampere GPU mit 64 Tensor-Cores |
Maximale GPU-Frequenz | Keine Angabe | 1.3GHz |
CPU | 8-Core NVIDIA Carmel Arm v8.2 64-Bit-CPU, 8 MB L2 + 4 MB L3 | 12-Core Arm Cortex-A78AE v8.2 64-Bit-CPU, 3 MB L2 + 6 MB L3 |
Maximale CPU-Frequenz | 2.2GHz | 2.2GHz |
DL-Beschleuniger | 2x NVDLA v1 | Keine Angabe |
DLA Max-Frequenz | 1.4GHz | Keine Angabe |
Vision-Beschleuniger | 2x PVA | 1x PVA v2 |
Memory | 64 GB LPDDR4x, 136.5 GB/s | 64 GB LPDDR5, 204.8 GB/s |
Lagerung | 32 GB eMMC 5.1, 64 GB in der Industrieversion verfügbar | Keine Angabe |
Videocodierung | 4x 4K60 (H.265), 8x 4K30 (H.265), 16x 1080p60 (H.265), 32x 1080p30 (H.265) | Keine Angabe |
Video Decode | 2x 8K30 (H.265), 6x 4K60 (H.265), 12x 4K30 (H.265), 26x 1080p60 (H.265), 52x 1080p30 (H.265) | Keine Angabe |
CSI-Kamera | Bis zu 6 Kameras (36 über virtuelle Kanäle), 16 Lanes MIPI CSI-2, 8 Lanes SLVS-EC, D-PHY 1.2 (bis zu 40 Gbps), C-PHY 1.1 (bis zu 62 Gbps) | Keine Angabe |
PCIe | 1×8, 1×4, 1×2, 2×1 (PCIe Gen4, Root-Port und Endpunkt) | x16 PCIe-Steckplatz mit Unterstützung für x8 PCIe Gen4, M.2 Key M-Steckplatz mit x4 PCIe Gen4, M.2 Key E-Steckplatz mit x1 PCIe Gen4 |
USB | 3x USB 3.2 Gen2 (10 Gbit/s), 4x USB 2.0 | USB-C für Stromversorgung (15–60 W), ein USB-C zum Flashen und Programmieren, Micro B für serielles Debuggen, 2 x USB 3.2 Gen2 (USB Typ C), 2 x USB 3.2 Gen2 (USB Typ A), 2 x USB 3.2 Gen1 (USB Typ A), USB 2.0 (USB Micro B) |
Networking | 1x GbE | RJ45-Anschluss mit bis zu 10 GbE |
Display | 3 Multimode DP 1.4/eDP 1.4/HDMI 2.0 | 1x DisplayPort 1.4a (+MST)-Anschluss |
Andere I / O | 5x UART, 3x SPI, 4x I2S, 8x I2C, 2x CAN, PWM, DMIC, GPIOs | 40-poliger Header (UART, SPI, I2S, I2C, CAN, PWM, DMIC, GPIO), 12-poliger Automatisierungs-Header, 10-poliger Audio-Panel-Header, 10-poliger JTAG-Header, 4-poliger Lüfter-Header, 2-poliger RTC-Batterie-Backup-Anschluss, microSD-Steckplatz, DC-Stromanschluss, Power-, Force-Recovery- und Reset-Tasten |
Power | 10-30W | 15–60 W (über USB-C) |
AI Side/NVIDIA SDK-Einrichtung
Large Language Models (LLMs) sind KIs wie ChatGPT oder Ollama, die mit großen Datenmengen trainiert wurden. Es ist schwer vorstellbar, dass man auf so kleinem Raum ein lokales, privates KI-Modell ausführen könnte. Derzeit tauchen auf dem Markt „AI PC“-Laptops von Intel, AMD und Snapdragon mit dedizierten NPUs auf. Diese Geräte, die der Jetson-Plattform ähneln, verwenden dediziertes Silizium auf dem Chip, das über zusätzliche KI-Beschleunigungsfunktionen verfügt. Konzeptionell sind diese Komponenten so konzipiert, dass sie ähnlich wie unser Gehirn funktionieren (daher das „neuronale“ in NPU) und die gleichzeitige Verarbeitung großer Datenmengen ermöglichen. Die Einbeziehung von NPUs bedeutet, dass CPU und GPU für die Verarbeitung anderer Aufgaben frei werden, was zu einem sowohl leistungs- als auch verarbeitungstechnisch deutlich effizienteren Computer führt.
Allerdings sind die 40 TOPS von Intels Lunar Lake oder AMDs 50 TOPS-Plattform immer noch nicht so groß wie die kombinierte Leistung der GPU und CPU der Jetson Orin Devkits, die bei 275 TOPS liegt. Das ist mehr als genug Leistung, um eine KI lokal in Ihrem Büro oder sogar in Ihrem Haus/Heimlabor zu betreiben! Weitere Komponenten, die die KI unterstützen, sind die beiden NVDLA v2 Deep Learning (DL)-Beschleuniger, die die Geschwindigkeit erhöhen, mit der das System KI-Prozesse ausführen kann, und ein einzelner Vision-Beschleuniger, der die Geschwindigkeit erhöht, mit der Computer Vision Bilder verarbeiten kann.
Die Einrichtung des Systems zum Ausführen von KI wird durch die zahlreichen Anleitungen von NVIDIA vereinfacht. Um zu beginnen, müssen Sie sicherstellen, dass Sie Ihren Jetson mit Ubuntu flashen, und dann diese 6 Schritte ausführen:
Schritt 1: NVIDIA SDK Manager installieren
Vollständige Anweisungen und Downloads finden Sie auf der NVIDIA SDK-Website.. Für diesen Vorgang ist ein kostenloser Entwickleraccount erforderlich.
Schritt 2: Öffnen Sie den auf Ubuntu installierten NVIDIA SDK Manager
Schritt 3: Entwicklungsumgebung
Mit diesem Schritt bestätigen Sie, dass Sie alles in Ordnung haben. Bestätigen Sie Ihr Produkt, Ihre Systemkonfigurationen, Ihre SDK-Version und zusätzliche SDKs. Für unser Setup haben wir das Jetson AGX Orin Development Kit, Ubuntu 22.04, JetPack 6.0 und Deep Stream 7.0 verwendet.
Schritt 4: Details und Lizenzierung
Dieser Schritt dient als Installationsbildschirm und stellt sicher, dass alle Host- und Zielkomponenten heruntergeladen und installiert werden. Hier können Sie auch den richtigen Download-Speicherort auswählen. Das Hostsystem benötigt 15 GB Speicherplatz und das Zielsystem 17 GB Speicherplatz.
Schritt 5: Einrichtungsprozess
Dieser Schritt dient als Bestätigungsfenster, um die Einrichtung abzuschließen. Hier wählen Sie den Wiederherstellungsmodus aus und legen fest, ob es sich um einen manuellen oder automatischen erzwungenen Wiederherstellungsmodus handeln soll. Der automatische Modus ist für den Fall gedacht, dass das System bereits geflasht und ausgeführt wurde. Von hier aus können Sie Ihre IP-Adresse einrichten/bestätigen, einen Benutzernamen und ein Passwort hinzufügen, Ihre OEM-Konfiguration und das Zielspeichergerät auswählen. Sobald alles eingestellt ist, können Sie auf die Option „Flash“ klicken.
Schritt 6: Zusammenfassung finalisieren
Schließlich wird mit diesem Schritt das System gestartet. Danach können Sie den Code ausführen:
jetson-containers run --name ollama $(autotag ollama)
Durch Ausführen der ersten Codezeile wird der Ollama LLM. Ollama ist eine beliebte Plattform, die die lokale Einrichtung und Entwicklung von LLMs einfach und unkompliziert macht und sogar innerhalb oder außerhalb des Containers eingerichtet werden kann. Es enthält eine integrierte Modellbibliothek mit vorquantisierten Gewichten und wird automatisch heruntergeladen und im Hintergrund mit llama.cpp als Inferenz ausgeführt. Der Ollama-Container wurde mit CUDA-Unterstützung kompiliert und ist daher perfekt für die Verwendung auf dem Jetson AGX Orin geeignet. Führen Sie anschließend den Code aus:
docker run -it --rm --network=host --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main
Anschließend können Sie über die Geräte-IP oder DNS-Adresse auf Port 8080 auf das Open Web User Interface (OWUI) zugreifen, das als Chatbot fungiert. Das OWUI dient als Plug-in für die API des Ollama-Servers, kann aber auch OpenAIs ChatGPT, Metas Llama-3 oder Microsofts Phi-3 Mini als Plug-ins verwenden.
Obwohl bei einem so geringen Stromverbrauch die Zeit bis zum ersten Token bei größeren Modellen deutlich länger ist, ist die Plattform nach dem Laden immer noch in der Lage, eine akzeptable Leistung zu liefern.
Fazit
Das Jetson AGX Orin Development Kit bietet erhebliche Leistung in einem kompakten Formfaktor. Da KI-PC-Lösungen immer relevanter werden, sticht die Jetson-Plattform hervor, insbesondere wenn man die TOPS-Einschränkungen von NPUs berücksichtigt, die in neue CPU-Versionen integriert sind. Das Jetson AGX Orin bietet Entwicklern, insbesondere solchen, die ARM-native Anwendungen benötigen, ein robustes Sprungbrett und hilft bei der Modellvalidierung und -verfeinerung.
Obwohl es sich um ein Entwicklungskit handelt, ist es aufgrund seiner Benutzerfreundlichkeit und ausreichenden Leistung ein hervorragender Ausgangspunkt für Unternehmen, die ihre KI-Reise beginnen. Die Jetson-Plattform zeigt das enorme Potenzial von KI-Lösungen im kleinen Formfaktor – elegant gestaltet, extrem energieeffizient und in der Lage, 275 TOPS KI-Leistung zu liefern. Diese Kombination macht die Jetson-Plattform mit viel größeren, im Rack montierten KI-Servern vergleichbar.
Die umfassenden Anleitungen von NVIDIA vereinfachen das Flashen und Bereitstellen einer Vielzahl von KI-Modellen, wobei Generative KI nur ein Teil des Puzzles ist. Für Unternehmen, die bereit sind, KI zu entwickeln und bereitzustellen, bietet das Jetson AGX Orin Development Kit eine perfekte Mischung aus Energieeffizienz, geringem Platzbedarf und herausragender KI-Leistung und ist damit die ideale Wahl für die Erkundung und Implementierung von KI-Technologien.
Jetson AGX Orin Entwicklungskit
Beteiligen Sie sich an StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed