Hem FöretagAI Återbesök NVIDIA Jetson AGX Orin: Tiny Package, Large Language Models

Återbesök NVIDIA Jetson AGX Orin: Tiny Package, Large Language Models

by Colin Balzer

Vi återbesöker Jetson AGX Orin och visar hur man får en Chat-GPT Type LLM på lågeffektsenheten.

Redaktörens notering: Vi fick möjligheten att sätta oss ner och gräva om i NVIDIA Jetson-plattformen med en ny medlem i vårt team. Kolla in vår artikel från förra året där vi körde en vision-modell på en slutproduktversion av Jetson, Lenovo SE70

Med NVIDIAs Jetson-plattform kan utvecklare utforska AI-alternativ som är speciellt anpassade för avancerad AI-utveckling. Dessa system möjliggör GPU-aktiverad serverprestanda i ett paket du kan hålla i en hand. Stort tack till NVIDIA för att du gav oss Jetson AGX Orin Development Kit att testa och se hur enkelt det kan vara att ha en egen Local LLM.

NVIDIA Jetson AGX ORINJetson AGX Orin DevKit kommer i en liten formfaktordesign, endast 11 cm eller cirka 4.3 tum bred och längd och 7.2 cm (cirka 2.8 tum) hög. På insidan av Jetson AGX Orin Dev Kit sitter en 2048-kärnig NVIDIA Ampere-arkitektur GPU med 64 Tensor Cores och en maxfrekvens på 1.3GHz. Det finns också en Arm Cortex CPU 12-kärnig A78AE v8.2 64-bitars CPU med 3MB L2-cache, 6MB L3-cache och en maxfrekvens på 2.20GHz.

NVIDIA Jetson AGX ORIN fram

Dessa två kraftkomponenter, tillsammans med 64 GB LPDDR5 enhetligt minne med hastigheter på 204.8 GB/s, skapar tillsammans den här lilla maskinens mest imponerande bedrift: 275 TOPS i modeller med 64 GB från den lilla GPU och DLA. Det är 8.6 gånger antalet TOPS som NVIDIAs föregångare, Jetson AGX Xavier, som bara levererade 32 TOPS.

NVIDIA Jetson AGX ORIN moderkort

Under huven finns också två M.2-platser: en PCIe Gen 4×4 Key M för eventuell ytterligare lagring utöver 64 GB eMMC, och en Gen 4×1 Key E för trådlösa anslutningar. Onlineanslutning är dock inte ett problem, med en 10 gigabit RJ45-kontakt. Dessutom finns det ett 40-stiftshuvud (för UART, SPI, I2S, I2C, CAN, PWM, DMIC och GPIO), ett 12-stifts automationshuvud, ett 10-stifts ljudpanelhuvud, ett 10-stifts JTAG-huvud, en 4-stifts fläkthuvud, en 2-stifts RTC batteribackup-kontakt, samt 16-lans MIPI CSI-2-kontakt för CSI-kameror.

Det råder ingen brist på extern anslutning heller. Det finns sex USB-portar: två USB-A 3.2 Gen 2, två USB-A 3.2 Gen 1 och USB-C 3.2 Gen 2-portar. Av dessa två USB-C-portar kan en leverera upp till 20 Gbps hastigheter för blinkning och dataöverföring, och den andra är dedikerad till 60W strömförsörjning. Om du behöver den extra USB-C-porten så finns det en extra strömförsörjning via ett likströmsuttag. Systemet skickas dock endast med dess USB-C-strömförsörjning. Det finns också en micro SD-kortplats för ett snabbt lagringsalternativ och en micro USB-B-port som fungerar som en seriell debug-port.

NVIDIA Jetson AGX ORIN extern PCIe-kortplats

Gömd under ett magnetiskt lock, ligger den externa PCIe Gen 4×16-sloten. Dessutom stöder den externa PCIe-platsen upp till en PCIe 4×8-anslutning. Utan något sätt att driva en GPU internt är kortplatsen bäst lämpad för något som ett höghastighets-NIC. För ett dedikerat visningsalternativ har Orin en DisplayPort 1.4.

Jetson AGX Xavier vs. Jetson AGX Orin

Leverans Jetson AGX Xavier 64GB Jetson AGX Orin 64GB Dev Kit
AI-prestanda 32 TOPS 275 TOPS
GPU 512-kärnig NVIDIA Volta GPU med 64 tensorkärnor 2048-kärnig NVIDIA Ampere GPU med 64 tensorkärnor
GPU Max frekvens Ej specificerad 1.3GHz
CPU 8-kärnig NVIDIA Carmel Arm v8.2 64-bitars CPU, 8MB L2 + 4MB L3 12-kärnig Arm Cortex-A78AE v8.2 64-bitars CPU, 3MB L2 + 6MB L3
CPU Max frekvens 2.2GHz 2.2GHz
DL Accelerator 2x NVDLA v1 Ej specificerad
DLA Max Frequency 1.4GHz Ej specificerad
Visionsaccelerator 2x PVA 1x PVA v2
Minne 64 GB LPDDR4x, 136.5 GB/s 64 GB LPDDR5, 204.8 GB/s
lagring 32GB eMMC 5.1, 64GB finns i industriell version Ej specificerad
Videokodning 4x 4K60 (H.265), 8x 4K30 (H.265), 16x 1080p60 (H.265), 32x 1080p30 (H.265) Ej specificerad
Videoavkodning 2x 8K30 (H.265), 6x 4K60 (H.265), 12x 4K30 (H.265), 26x 1080p60 (H.265), 52x 1080p30 (H.265) Ej specificerad
CSI kamera Upp till 6 kameror (36 via virtuella kanaler), 16 banor MIPI CSI-2, 8 banor SLVS-EC, D-PHY 1.2 (upp till 40 Gbps), C-PHY 1.1 (upp till 62 Gbps) Ej specificerad
PCIe 1×8, 1×4, 1×2, 2×1 (PCIe Gen4, rotport och slutpunkt) x16 PCIe-kortplats som stöder x8 PCIe Gen4, M.2 Key M-plats med x4 PCIe Gen4, M.2 Key E-kortplats med x1 PCIe Gen4
USB 3x USB 3.2 Gen2 (10 Gbps), 4x USB 2.0 USB-C för strömförsörjning (15-60W), Single USB-C för flashning och programmering, Micro B för seriell felsökning, 2x USB 3.2 Gen2 (USB Type-C), 2x USB 3.2 Gen2 (USB Type-A), 2x USB 3.2 Gen1 (USB Typ-A), USB 2.0 (USB Micro-B)
nätverk 1x GbE RJ45-kontakt med upp till 10 GbE
Skärmar 3 multi-mode DP 1.4/eDP 1.4/HDMI 2.0 1x DisplayPort 1.4a (+MST)-kontakt
Övrigt I / O 5x UART, 3x SPI, 4x I2S, 8x I2C, 2x CAN, PWM, DMIC, GPIOs 40-stiftshuvud (UART, SPI, I2S, I2C, CAN, PWM, DMIC, GPIO), 12-stifts automatiseringshuvud, 10-stifts ljudpanelhuvud, 10-stifts JTAG-huvud, 4-stifts fläkthuvud, 2-stift RTC batteribackup-kontakt, microSD-kortplats, DC-strömuttag, Power, Force Recovery och Reset-knappar
Effekt 10-30W 15-60W (via USB-C)

AI Side/NVIDIA SDK Set-Up

Large Language Models (LLM) är AI:er, som ChatGPT eller Ollama, som har tränats på stora mängder data. I ett så litet fotavtryck är det svårt att tro att du skulle kunna köra en lokal, privat AI-modell. För närvarande ser vi "AI PC"-bärbara datorer dyka upp på marknaden från Intel, AMD och Snapdragon med dedikerade NPU:er. Dessa enheter, liknande Jetson-plattformen, kör dedikerat kisel på formen, som har ytterligare AI-accelerationsfunktioner. Konceptuellt är dessa komponenter designade för att fungera på samma sätt som vår hjärna (därav det "neurala" i NPU), och gör att stora mängder data kan behandlas samtidigt. Inkluderandet av NPU:er innebär att CPU och GPU frigörs för att bearbeta andra uppgifter, vilket leder till en mycket mer effektiv dator, både kraft- och processmässigt.

Men de 40 TOPS som produceras av Intels Lunar Lake, eller AMD:s 50 TOPS-plattform är fortfarande inte lika stor som den kombinerade kraften hos Jetson Orin Devkits GPU och CPU, vilket gör en annonserad 275 TOPS. Det finns mer än tillräckligt med kraft för att ha en AI lokalt på ditt kontor, eller till och med i ditt hus/hemlabb! Andra komponenter som hjälper till med AI är de två NVDLA v2 Deep Learning (DL) acceleratorerna, som underlättar den hastighet med vilken systemet kan utföra AI-processer; och en enda Vision-accelerator, som snabbar upp hastigheten med vilken Computer Vision kan bearbeta bilder.

Att ställa in systemet för att köra AI strömlinjeformas av NVIDIAs många guider. För att komma igång måste du se till att du flashar din Jetson med Ubuntu och följ sedan dessa 6 steg:

Steg 1: Installera NVIDIA SDK Manager

Fullständiga instruktioner och nedladdningar kommer att finnas tillgängliga på NVIDIA SDK-webbplatsen. Ett gratis utvecklarkonto krävs för denna process.

Steg 2: Öppna NVIDIA SDK Manager installerad på Ubuntu

Steg 3: Utvecklingsmiljö

Detta steg är att bekräfta att du har alla dina ankor i rad. Bekräfta din produkt, systemkonfigurationer, SDK-version och ytterligare SDK:er. För vår installation använde vi Jetson AGX Orin Development Kit, Ubuntu 22.04, JetPack 6.0 och Deep Stream 7.0.

Steg 4: Detaljer och licensiering

Det här steget fungerar som en installationsskärm som säkerställer att alla värdkomponenter och målkomponenter laddas ner och installeras. Det här är också platsen för att välja rätt nedladdningsplats. Värdsystemet kräver 15 GB lagringsutrymme och målsystemet kräver 17 GB lagringsutrymme.

Steg 5: Installationsprocess

Detta steg fungerar som ett bekräftelsefönster för att slutföra installationen. Här väljer du återställningsläge och väljer om det ska vara ett manuellt eller automatiskt påtvingat återställningsläge, automatiskt är för när du redan har haft systemet blinkat och kört. Härifrån kan du ställa in/bekräfta din IP-adress, lägga till ett användarnamn och lösenord, välja din OEM-konfiguration och mållagringsenheten. När allt är inställt kommer du att kunna klicka på Flash-alternativet.

Steg 6: Slutförande av sammanfattning

Slutligen kommer detta steg att köra systemet. Efter detta kommer du att kunna köra koden:

jetson-containers run --name ollama $(autotag ollama)

Om du kör den första raden med kod kommer du att starta Ollama LLM. Ollama är en populär plattform som gör lokal installation och utveckling av LLM:er enkelt och enkelt, även att kunna ställas in i eller utanför containern. Den innehåller ett inbyggt modellbibliotek med förkvantiserade vikter och kommer automatiskt att laddas ner och köras med llama.cpp bakom kulisserna som en slutledning. Ollama-behållaren kompilerades med CUDA-stöd, vilket gör den perfekt för användning på Jetson AGX Orin. Sedan genom att köra koden:

docker kör -it --rm --network=host --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main

Du kommer då att kunna komma åt Open Web User Interface (OWUI) på enhetens IP- eller DNS-adress på port 8080, som kommer att fungera som en chatbot. OWUI fungerar som en plug-in till API för Ollama-servern, men kan också använda OpenAIs ChatGPT, Metas Llama-3 eller Microsofts Phi-3 Mini som plug-ins.

Medan på en så låg energibudget är tiden till första token för större modeller särskilt långsam, kan plattformen fortfarande leverera acceptabel prestanda när den väl är laddad.

Slutsats

Jetson AGX Orin Development Kit erbjuder betydande prestanda i en kompakt formfaktor. När AI PC-lösningar blir allt mer relevanta sticker Jetson-plattformen ut, särskilt när man överväger TOPS-begränsningarna för NPU:er integrerade i nya CPU-utgåvor. Jetson AGX Orin är en robust språngbräda för utvecklare, särskilt de som kräver ARM-native applikationer, vilket hjälper till med modellvalidering och förfining.

Även om detta är ett utvecklingspaket, gör dess användarvänlighet och rikliga kraft det till en utmärkt utgångspunkt för företag som påbörjar sin AI-resa. Jetson-plattformen visar upp den enorma potentialen hos AI-lösningar med liten formfaktor – elegant designade, extremt strömsnåla och kapabla att leverera 275 TOPS av AI-prestanda. Denna kombination gör Jetson-plattformen jämförbar med mycket större, rackmonterade AI-servrar.

NVIDIAs omfattande guider förenklar processen att flasha och distribuera en mängd olika AI-modeller, där Generativ AI bara är en pusselbit. För företag som är redo att utveckla och distribuera AI erbjuder Jetson AGX Orin Development Kit en perfekt blandning av energieffektivitet, litet fotavtryck och enastående AI-prestanda, vilket gör det till ett idealiskt val för att utforska och implementera AI-teknik.

Jetson AGX Orin Development Kit

Engagera dig med StorageReview

Nyhetsbrev | Youtube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Rssflöde