Tekniken rör sig i cykler, och ingen cykel är mer uppenbar just nu än betoningen på AI vid kanten. I synnerhet hittar vi en massiv slutledning från sväng till kant. NVIDIA är en stor del av denna push, som vill driva adoptionen av sina GPU:er utanför datacentret. Ändå är faktum att företag måste fatta fler beslut snabbare, så AI-infrastrukturen måste komma närmare data.
Tekniken rör sig i cykler, och ingen cykel är mer uppenbar just nu än betoningen på AI vid kanten. I synnerhet hittar vi en massiv slutledning från sväng till kant. NVIDIA är en stor del av denna push, som vill driva adoptionen av sina GPU:er utanför datacentret. Ändå är faktum att företag måste fatta fler beslut snabbare, så AI-infrastrukturen måste komma närmare data.
Kommer du ihåg Hub-and-Speake?
I "gamla dagar" pratade vi om fördelen när det gäller att skapa data och hur man snabbt och effektivt kan få tillbaka dessa data till datacentret genom att använda den traditionella nav-och-ek-metoden. Den designen gav vika för den hierarkiska designen, baserad på kärna, åtkomst och distribution med massor av redundans och hårdvara och det enda syftet att få tillbaka data till det primära datacentret. All data som samlades in vid kanten bara för att transporteras tillbaka till huvuddatacentret för bearbetning och sedan tryckas tillbaka till kanten-enheterna visade sig vara ineffektiva, kostsamma och tidskrävande.
Så kanske den där nav-och-ek-designen inte var så dålig trots allt. Med strävan att leverera mer intelligens vid kanten med AI och störningen av cloud computing, verkar det som att designen avsevärt påverkar nätverksdesign, edge-distributioner och var data bearbetas. Faktiskt årets HPE Upptäck Konferensen hade en slogan som skulle ha varit mycket välbekant under vilket år som helst innan molnvurmen om du bara bytte kärna mot moln, "The Edge-to-Cloud Conference."
Jumping on the Edge Momentum
HPE var inte den enda leverantören som insåg vikten av edge-to-cloud-datorer för branschen, med Dell Technologies som levererade en liknande historia under Dell Technologies World-evenemanget. IBM, Lenovo, NetApp och Supermicro har också uttalat sig om behovet av att göra mer på kanten och samtidigt använda molnresurserna mer effektivt.
Vad är det som driver laserfokuset för edge computing? Kunder genererar mängder av data vid kanten som samlas in från sensorer, IoT-enheter och datainsamlingar för autonoma fordon. Närhet till data vid källan kommer att ge affärsfördelar, inklusive snabbare insikter med exakta förutsägelser och snabbare svarstider med bättre bandbreddsutnyttjande. AI-inferencing vid kanten (handlingsbar intelligens med hjälp av AI-tekniker) förbättrar prestandan, minskar tiden (inferenstiden) och minskar beroendet av nätverksanslutning, vilket i slutändan förbättrar affärsresultatet.
Varför inte göra Edge Inferencing i molnet?
Varför kan inte edge inferencing göras i molnet? Det kan, och för applikationer som inte är tidskänsliga och bedöms som icke-kritiska, kan moln AI-inferencing vara lösningen. Realtidsinferencing har dock många tekniska utmaningar, latens är primärt bland dem. Med den fortsatta tillväxten av IoT-enheter och tillhörande applikationer som kräver bearbetning i kanten, kanske det inte är möjligt att ha en höghastighetsmolnanslutning tillgänglig för alla enheter.
Edge computing ger sina egna utmaningar som inkluderar support på plats, fysisk säkerhet och applikationssäkerhet och begränsat utrymme som leder till begränsad lagring. Dagens edge-servrar levererar tillräcklig beräkningskraft för traditionella edge-arbetsbelastningar, med GPU:er som lägger till mer kraft utan mer komplexitet.
Tillväxt av Edge-alternativ
Intressant nog har de mindre systemleverantörerna i första hand dominerat marknaden för edge-infrastruktur. Supermicro, till exempel, har pratat om 5G och datacenter på telefonstolpar i flera år, och Advantech och många andra specialiserade serverleverantörer har gjort detsamma. Men i takt med att grafikprocessorerna har förbättrats och, ännu viktigare, mjukvaran för att stödja dem, blir hela uppfattningen om AI vid kanten mer verklig.
Vi har nyligen sett denna övergång i vårt labb på några olika sätt. För det första, nya serverdesigner ger NVIDIAs enda kortplats, lågeffekt-GPU:er som A2 och den ständigt populära T4. Nyligen har både Lenovo och Supermicro skickat oss servrar för att utvärdera som har integrerat dessa GPU:er, och prestandan har varit imponerande.
SuperMicro IoT SuperServer SYS-210SE-31A med NVIDIA T4
För det andra, infrastrukturleverantörer lägger stor vikt vid att leverera avancerade lösningar med mått kopplade direkt till datacenterhäftklamrar som låg latens och säkerhet. Vi tittade nyligen på några av dessa användningsfall med Dell PowerVault ME5. Även om ME5 är en SMB-lagringslösning, genererar den ett stort intresse för edge-användningsfall på grund av dess kostnad/prestanda-förhållande.
Men i slutändan är berättelsen om kantslutledning ganska enkel. Det handlar om grafikprocessorns förmåga att bearbeta data, ofta i farten. Vi har arbetat med att utöka våra tester för att få en bättre uppfattning om hur dessa nya servrar och GPU:er kan fungera för rollen som edge-inferencing. Specifikt har vi tittat på populära edge-arbetsbelastningar som bildigenkänning och naturliga språkbehandlingsmodeller.
Testa bakgrund
Vi arbetar med MLPerf Inference: Edge benchmark suite. Denna uppsättning verktyg jämför slutledningsprestanda för populära DL-modeller i olika verkliga scenarier. I vår testning har vi siffror för ResNet50-bildklassificeringsmodellen och BERT-Large NLP-modellen för frågesvarsuppgifter. Båda körs i Offline- och SingleStream-konfigurationer.
Offline-scenariot utvärderar slutledningsprestanda i ett "batch-läge", när alla testdata är omedelbart tillgängliga och latens inte är ett övervägande. I denna uppgift kan slutledningsskriptet behandla testdata i valfri ordning, och målet är att maximera antalet frågor per sekund (QPS=throughput). Ju högre QPS-tal, desto bättre.
Single Stream-konfigurationen behandlar däremot ett testprov åt gången. När slutledning har utförts på en enda ingång (i ResNet50-fallet är ingången en enda bild), mäts latensen och nästa sampel görs tillgängligt för slutledningsverktyget. Målet är att minimera latens för bearbetning av varje fråga; ju lägre latens desto bättre. Frågeströmmens 90:e percentilfördröjning fångas som målmått för korthetens skull.
Bilden nedan är från en NVIDIA blogg inlägg om MLPerf inferens 0.5, som visualiserar scenarierna mycket väl. Du kan läsa mer om de olika scenarierna i originalet MLPerf Inference paper här.
Edge Inferencing – Lenovo ThinkEdge SE450
Efter att ha granskat ThinkEdge SE450, arbetade vi med Lenovo för att köra MLPerf på NVIDIA A2 och T4 i systemet. Målet var att få en uppfattning om vad SE450 skulle kunna göra med bara en enda GPU. Det bör noteras att systemet kan stödja upp till fyra av NVIDIA GPU:erna med låg effekt, och det är logiskt att ta dessa siffror och extrapolera dem till antalet önskade kort.
För denna testning arbetade vi direkt med Lenovo och testade de olika konfigurationerna i vårt labb med både NVIDIA A2 och T4. Med MLPerf har leverantörer en specifik testsele som har ställts in för just deras plattform. Vi använde Lenovos testsele för denna benchmarking för kantinferencing för att få en uppfattning om var dessa populära GPU:er kommer ut.
Resultaten från testerna för A2 och T4 i SE450 i vårt labb:
riktmärke | NVIDIA A2 (40-60W TDP) | NVIDIA T4 (70W TDP) |
---|---|---|
ResNet50 SingleStream | 0.714ms latens | 0.867 latens |
ResNet50 offline | 3,032.18 XNUMX prover/s | 5,576.01 XNUMX prover/s |
BERT SingleStream | 8.986ms latens | 8.527ms latens |
BERT offline | 244.213 XNUMX prover/s | 392.285 XNUMX prover/s |
Intressant nog gjorde NVIDIA T4 riktigt bra genomgående, vilket är överraskande för vissa baserat enbart på dess ålder. T4:ans prestandaprofil är en ganska uppenbar anledning till att T4 fortfarande är väldigt populär. Som sagt, A2 har en meningsfull latensfördel jämfört med T4 vid bildinferens i realtid.
I slutändan är beslutet om GPU anpassat för den specifika uppgiften. Den äldre NVIDIA T4 förbrukar mer ström (70W) och använder en PCIe Gen3 x16-plats medan den nyare A2 är designad för att fungera på mindre ström (40-60W) och använder en PCIe Gen4 x8-plats. När organisationer bättre förstår vad de efterfrågar från sin infrastruktur vid kanten, kommer resultaten att bli mer meningsfulla, och det är mer sannolikt att projekt som leder till framgång kommer att lyckas.
Avslutande tankar
Leverantörer tävlar om att utveckla mindre, snabbare och mer robusta servrar för kantmarknaden. Organisationer från detaljhandeln till fabriker till hälso- och sjukvården ropar efter att få snabbare insikter i data som samlas in vid källan. Förbättring av slutledningstid, minskning av latens, med alternativ för att förbättra prestanda och användning av ny teknik kommer snabbt att skilja vinnare och förlorare åt.
Edgemarknaden står inte stilla eftersom organisationer hittar nya sätt att utnyttja insikterna från det ständigt växande antalet IoT-enheter. Vårt team ser en stor möjlighet för de som kan röra sig snabbt i sina respektive branscher att dra nytta av AI vid kanten, vilket inkluderar detta användningsfall som kan dra slutledningar.
Vi förväntar oss att de framstående IT-infrastrukturaktörerna kommer att svara med innovativa lösningar för detta specifika användningsfall under nästa år. Dessutom, och kanske ännu viktigare, förväntar vi oss att se många framsteg inom mjukvara för att hjälpa till att demokratisera användningen av GPU:er i dessa edge use-fall. För att denna teknik ska vara transformativ måste den vara lättare att implementera än den är idag. Med tanke på det arbete vi ser inte bara från NVIDIA utan från mjukvaruföretag som Vantiq, Viso.ai, och många andra, är vi optimistiska om att fler organisationer kan förverkliga denna teknik.
Engagera dig med StorageReview
Nyhetsbrev | Youtube | Podcast iTunes/Spotify | Instagram | Twitter | Facebook | Rssflöde