NVIDIA GTC 2024 är här; tillbaka personligen för första gången på många år. Jordan är på evenemanget live och ger alla de senaste nyheterna och analyserna om det ledande AI-evenemanget.
NVIDIAs GPU Technology Conference (GTC) är tillbaka personligen efter ett antal år som ett virtuellt evenemang. Detta är ett fantastiskt evenemang för både innovatörer, forskare, forskare och teknikentusiaster att se den senaste tekniken från teknikjätten. Årets NVIDIA GTC 2024, mycket efterlängtad inom teknikgemenskapen, visar upp de senaste genombrotten inom AI, djupinlärning, autonoma fordon och den nya Blackwell-arkitekturen.
Här är höjdpunkterna från NVIDIA:s vd Jensen Huangs, måndagens keynote. Det omgav NVIDIAs nya Blackwell-arkitektur, nätverk, kvantberäkningsframsteg och uppdateringar av mjukvarustack.
NVIDIA Blackwell
Sex banbrytande tekniker redo att omdefiniera accelererad datoranvändning är hjärtat i Blackwells innovation. NVIDIA sätter en ny standard, från att förbättra databehandlingen till att revolutionera läkemedelsdesignen och mer. Högprofilerade användare som Amazon och Microsoft ställer redan upp i väntan på Blackwells transformativa potential.
Låt oss zooma in på det tekniska underverk som NVIDIA har åstadkommit. Blackwell GPU:erna packar hela 208 miljarder transistorer över två kretsar, möjliggjort genom att utnyttja en tvåkorsgräns 4NP TSMC-process. Detta tillvägagångssätt utmanar gränserna för halvledartillverkning och introducerar ett nytt sätt att ansluta chips med ett blixtrande 10TB/s-gränssnitt. Denna utveckling mot chipletdesigner återspeglar NVIDIAs ambition att ta sig bortom traditionella gränser.
Specifikation | H100 | B100 | B200 |
Max minne | 80GB HBM3 | 192 GB HBM3e | 192 GB HBM3e |
minnesbandbredd | 3.35 TB/s | 8 TB/s | 8 TB/s |
FP4 | - | 14 PFLOPS | 18 PFlops |
FP6 | - | 7 PFLOPS | 9 PFLOPS |
FP8/INT8 | 3.958 PFLOPS/POPS | 7 PFLOPS/POPS | 9 PFLOPS/POPS |
FP16/BF16 | 1979 TFLOPS | 3.5 PFLOPS | 4.5 PFLOPS |
TF32 | 989 TFLOPS | 1.8 PFLOPS | 2.2 PFLOPS |
FP64 | 67 TFLOPS | 30 TFLOPS | 40 TFLOPS |
Max Strömförbrukning | 700W | 700W | 1000W |
Obs: Alla siffror här representerar prestanda för glesa matrisberäkningar.
Det handlar inte bara om att packa fler transistorer. Införandet av FP4 och FP6 beräkningskapacitet ger en ny nivå av effektiv modellträning, om än med en liten avvägning i modellprestanda. Denna avvägning är en nyanserad aspekt av plattformen, som återspeglar en komplex balansgång mellan effektivitet och precision.
Den andra generationens transformatormotor inom Blackwell möjliggör ett steg i beräknings-, bandbredds- och modellstorlekskapacitet när du använder FP4, vilket ger förbättringar som är avgörande för framtiden för AI-utveckling. Dessutom ger integrering av PCIe Gen6 och ny HBM3e-minnesteknologi en rejäl ökning av bandbredden, som, i kombination med femte generationens NVLink, fördubblar bandbredden från föregående generation till häpnadsväckande 1.8 TB/s.
En av de mer spännande introduktionerna är RAS Engine, som förbättrar tillförlitlighet, tillgänglighet och servicebarhet över massiva AI-distributioner. Den här innovationen kan avsevärt förbättra användningen av modellfloppen, och hantera en av de kritiska utmaningarna med att skala AI-applikationer.
Med Blackwell ger NVIDIA nya konfidentiella datormöjligheter, inklusive den första Trusted Execution Environment(TEE)-I/O-kapabla GPU:n i branschen, som utökar TEE bortom CPU:erna till GPU:er. Detta säkerställer säker och snabb behandling av privata data, avgörande för att träna generativ AI. Denna innovation är särskilt viktig för industrier som arbetar med integritetsbestämmelser eller proprietär information. NVIDIA Blackwells Confidential Computing ger oöverträffad säkerhet utan att kompromissa med prestanda, och erbjuder nästan identisk genomströmning till okrypterade lägen. Detta framsteg säkrar inte bara stora AI-modeller utan möjliggör också konfidentiell AI-utbildning och federerat lärande, vilket skyddar immateriella rättigheter i AI.
Dekompressionsmotorn i NVIDIA Blackwell markerar ett betydande steg i dataanalys och databasarbetsflöden. Denna motor kan dekomprimera data med en häpnadsväckande hastighet på upp till 800 GB/s, vilket avsevärt förbättrar prestandan för dataanalys och minskar tiden till insikter. I samarbete med 8TB/s HBM3e-minne och höghastighetsinterconnect NVLink-C2C accelererar den databasfrågor, vilket gör Blackwell 18 gånger snabbare än CPU:er och 6 gånger snabbare än tidigare NVIDIA GPU:er i frågeriktmärken. Den här tekniken stöder de senaste komprimeringsformaten och positionerar NVIDIA Blackwell som ett kraftpaket för dataanalys och vetenskap, vilket drastiskt påskyndar analyspipelinen från slut till slut.
Trots de tekniska underverken väcker NVIDIAs påstående om att minska LLM-slutledningsdriftskostnader och energi med upp till 25x på ögonbrynen, särskilt med tanke på bristen på detaljerade energiförbrukningsdata. Detta påstående, även om det är anmärkningsvärt, kan dra nytta av ytterligare förtydligande för att bedöma deras inverkan fullt ut.
Sammanfattningsvis är NVIDIAs Blackwell-plattform ett bevis på företagets obevekliga strävan efter att tänja på gränserna för vad som är möjligt inom AI och datoranvändning. Med sina revolutionerande teknologier och ambitiösa mål är Blackwell inte bara ett steg utan ett gigantiskt steg framåt, som lovar att underblåsa olika framsteg inom olika branscher. När vi går djupare in i den här eran av accelererad datoranvändning och generativ AI, kan NVIDIAs innovationer vara katalysatorerna för nästa industriella revolution.
NVIDIA Blackwell HGX
Genom att omfamna Blackwell-arkitekturen uppdaterade NVIDIA sin HGX-server- och baskortserie. Denna betydande utveckling från tidigare modeller medför en övertygande förändring, som särskilt minskar den totala ägandekostnaden samtidigt som prestandan ökar imponerande. Jämförelsen är slående – när man ställer FP8 mot FP4, finns det en anmärkningsvärd 4.5x prestandaförbättring. Även när man matchar FP8 med sin föregångare fördubblas prestandan nästan. Det här handlar inte bara om råhastighet; det är ett steg framåt när det gäller minneseffektivitet och visar upp en 8x ökning av den sammanlagda minnesbandbredden.
Specifikation | HGX H100 | HGX H200 | HGX B100 | HGX B200 |
Max minne | 640GB HBM3 | 1.1 TB HBM3e | 1.5 TB HBM3e | 1.5 TB HBM3e |
minnesbandbredd | 7.2 TB/s | 7.2 TB/s | 8 TB/s | 8 TB / s |
FP4 | - | - | 112 PFLOPS | 144 PFLOPS |
FP6 | - | - | 56 PFLOPS | 72 PFLOPS |
FP8/INT8 | 32 PFLOPS/POPS | 32 PFLOPS/POPS | 56 PFLOPS/POPS | 72 PFLOPS/POPS |
FP16/BF16 | 16 PFLOPS | 16 PFLOPS | 28 PFLOPS | 36 PFLOPS |
NVIDIA Grace-Blackwell SuperChip
Dyk djupare in i krångligheterna i NVIDIAs senaste tillkännagivande, med fokus på GB200, hörnstenen i Blackwell-plattformens arsenal. Med NVIDIA ständigt drivande på gränsen för högpresterande datorer, representerar GB200 en betydande utveckling av sina GPU-erbjudanden, och blandar banbrytande teknik med strategiska framsteg inom anslutning och skalbarhet. GB200 har två B200 GPU:er; den här konfigurationen avviker från föregående generations GH200, som innehöll en en-till-en-anslutning mellan en GPU och en Grace CPU. Den här gången är båda B200 GPU:erna länkade till samma Grace CPU via en 900GB/s chip-to-chip (C2C) länk.
Specifikation | GH200 | GB200 |
Max minne | 144 GB HBM3e | 384 GB HBM3e |
minnesbandbredd | 8 TB/s | 16TB/s (sammanlagt) |
FP4 | - | 40 PFLOPS |
FP6 | - | 20 PFLOPS |
FP8/INT8 | 3.958 PFLOPS/POPS | 20 PFLOPS |
FP16/BF16 | 1979 TFLOPS | 10 PFLOPS |
TF32 | 989 TFLOPS | 5 PFLOPS |
FP64 | 67 TFLOPS | 90 TFLOPS |
PCIe-banor | 4x PCIe Gen 5 x16 | 2x PCIe Gen 6 x16 |
Max Strömförbrukning | 1000W | 2700W |
# Obs: Alla siffror här representerar prestanda för glesa matrisberäkningar.
Vid första anblicken kan beslutet att behålla 900GB/s C2C-länken från föregående generation verka som en begränsning. Detta designval understryker dock en utarbetad strategi för att dra nytta av befintlig teknik samtidigt som den banar väg för nya nivåer av skalbarhet. GB200:s arkitektur gör att den kan kommunicera med upp till 576 GPU: er med en hastighet av 1.8TB/s, tack vare femte generationens NVLink. Denna nivå av sammankoppling är avgörande för att bygga massivt parallella datormiljöer som är nödvändiga för att träna och distribuera de största och mest komplexa AI-modellerna.
Uppdatering av NVIDIA Networking Stack
Integrering av GB200 med NVIDIAs senaste nätverksteknik, Quantum-X800 InfiniBand och Spectrum-X800 Ethernet-plattformarna väcker intressanta frågor om anslutning och bandbredd. Omnämnandet av 800 Gb/s-kapacitet antyder att NVIDIA utforskar fördelarna med PCIe Gen6.
GB200-konfigurationen, med sin dubbla GPU-konfiguration och avancerade nätverksalternativ, representerar NVIDIAs framtidsvision för HPC. Denna vision handlar inte bara om enskilda komponenters råkraft utan hur dessa komponenter kan orkestreras i ett sammanhängande, skalbart system. Genom att möjliggöra en högre grad av sammankoppling och upprätthålla en balans mellan beräkningskraft och dataöverföringshastigheter tar NVIDIA upp några av de mest kritiska utmaningarna inom AI-forskning och -utveckling, särskilt när det gäller att hantera exponentiellt växande modellstorlekar och beräkningskrav.
NVIDIA femte generationens NVLink- och NVLink-switchar
Femte generationens NVLink markerar en betydande milstolpe inom högpresterande datoranvändning och AI. Denna teknik förbättrar kapaciteten att ansluta och kommunicera mellan GPU:er, en avgörande aspekt för de snabbt utvecklande kraven på grundläggande modeller inom AI.
Femte generationens NVLink ökar sin GPU-anslutningskapacitet till 576 GPU:er, en avsevärd ökning från den tidigare gränsen på 256 GPU:er. Denna expansion är ihopkopplad med en fördubbling av bandbredden jämfört med föregångaren, en avgörande förbättring för prestandan hos allt mer komplexa grundläggande AI-modeller.
Varje Blackwell GPU-länk har två höghastighetsdifferentialpar, liknande Hopper GPU, men den uppnår en effektiv bandbredd per länk på 50 GB/sek i varje riktning. Dessa GPU:er är utrustade med 18 femte generationens NVLink-länkar, vilket ger en häpnadsväckande total bandbredd på 1.8 TB/s. Denna genomströmning är mer än 14 gånger större än den för nuvarande PCIe Gen 5.
En annan anmärkningsvärd funktion är NVIDIA NVLink Switch, som stöder en 130TB/s GPU-bandbredd i en enda 72 GPU NVLink-domän (NVL72), avgörande för modellparallellism. Denna switch ger också en fyrfaldig ökning av bandbreddseffektiviteten med det nya NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) FP8-stödet.
Dessutom kompletterar NVIDIA Unified Fabric Manager (UFM) NVLink-switchen genom att tillhandahålla robust och beprövad hantering av NVLink-beräkningsstrukturen.
Exascale Compute i ett rack
Bygger på den formidabla grund som lagts av sin föregångare, GraceHopper GH200 NVL32, är DGX GB200 NVL72 inte bara en uppgradering; det är en hörnstensutveckling för att utöka vad som är möjligt i beräkningskraft och effektivitet. DGX GB200 NVL72-plattformen visar upp häpnadsväckande framsteg över hela linjen. Varje DGX GB200 NVL72-system består av 18x GB200 SuperChip-noder, bestående av 2x GB200 vardera.
Den här plattformen mer än fördubblar antalet GPU:er från 32 till 72 och ökar processorerna måttligt från 32 till 36. Minnessprånget är dock anmärkningsvärt och hoppar från 19.5 TB till imponerande 30 TB. Denna expansion handlar inte bara om mer betydande siffror; det handlar om att möjliggöra en ny nivå av beräkningsmöjligheter, särskilt när det gäller att hantera de mest komplexa AI-modellerna och simuleringarna.
En av de mest imponerande uppgraderingarna är språnget i beräkningsprestanda. Plattformen hoppar från 127 PetaFLOPS till 1.4 ExaFLOPS när man jämför FP4-prestanda, vilket markerar en ungefärlig 11x ökning. Den här jämförelsen belyser NVIDIAs engagemang för att tänja på gränserna för precision och hastighet, särskilt inom AI och maskininlärning. Men även när man jämför FP8 med FP8, uppnår plattformen en 5.6x ökning, från 127PF till 720PF, vilket understryker betydande framsteg i effektivitet och beräkningskraft.
Åtagandet att upprätthålla ett helt vattenkylt system återspeglar NVIDIAs fokus på hållbarhet och prestandaoptimering. Detta tillvägagångssätt förbättrar systemets operativa effektivitet och överensstämmer med bredare industritrender mot mer miljövänlig datacenterteknik.
NVIDIA DGX SuperPOD drivs av NVIDIA GB200 Grace Blackwell Superchips
NVIDIA tillkännagav också sin nästa generations AI-superdator, DGX SuperPOD, utrustad med 8 NVIDIA GB200 NVL72 Grace Blackwell-system. Denna formidabla installation är designad för att hantera biljoner-parametermodeller, med 11.5 exaflops av AI-superberäkningskraft med FP4-precision över dess vätskekylda, rack-skala arkitektur. Varje GB200 NVL72-system inkluderar 36 NVIDIA GB200 Superchips, vilket lovar en 30x prestandaökning jämfört med sina H100-föregångare för stora arbetsbelastningar för språkmodeller.
Enligt Jensen Huang, NVIDIAs VD, syftar DGX SuperPOD till att vara "fabriken för den AI-industriella revolutionen."
Quantum Simulation Cloud
NVIDIA avslöjade också tjänsten Quantum Simulation Cloud, som gör det möjligt för forskare att utforska kvantberäkningar inom olika vetenskapliga domäner. Baserad på plattformen CUDA-Q med öppen källkod erbjuder denna tjänst kraftfulla verktyg och integrationer för att bygga och testa kvantalgoritmer och applikationer. Samarbeten med University of Toronto och företag som Classiq och QC Ware lyfter fram NVIDIAs ansträngning att påskynda kvantberäkningsinnovation.
NVIDIA NIM Software Stack
Ett annat viktigt tillkännagivande var lanseringen av NVIDIA NIM-programvaran, som erbjuder dussintals generativa AI-mikrotjänster i företagsklass. Dessa tjänster gör det möjligt för företag att skapa och distribuera anpassade applikationer på sina plattformar, optimera slutsatser om populära AI-modeller och förbättra utvecklingen med NVIDIA CUDA-X mikrotjänster för ett brett utbud av applikationer. Jensen Huang betonade potentialen hos dessa mikrotjänster för att omvandla företag över branscher till AI-drivna enheter.
OVX datorsystem
Som svar på den snabba tillväxten av generativ AI i olika branscher har NVIDIA introducerat OVX-datorsystemen, en lösning utformad för att effektivisera komplex AI och grafikintensiva arbetsbelastningar. NVIDIA inser den avgörande rollen av högpresterande lagring i AI-distributioner och har initierat ett valideringsprogram för lagringspartner med ledande bidragsgivare som DDN, Dell PowerScale, NetApp, Pure Storage och WEKA.
Det nya programmet standardiserar processen för partner att validera sina lagringsenheter, vilket säkerställer optimal prestanda och skalbarhet för företags AI-arbetsbelastningar. Genom rigorösa NVIDIA-tester valideras dessa lagringssystem mot olika parametrar, vilket återspeglar de utmanande kraven för AI-applikationer.
Dessutom erbjuder NVIDIA-certifierade OVX-servrar, drivna av NVIDIA L40S GPU:er och integrerade med omfattande mjukvara och nätverkslösningar, en flexibel arkitektur för att passa olika datacentermiljöer. Detta tillvägagångssätt accelererar inte bara beräkningen där data finns utan tillgodoser också de unika behoven hos generativ AI, vilket säkerställer effektivitet och kostnadseffektivitet. NVIDIA OVX-servrarna är utrustade med robusta GPU:er som erbjuder förbättrade beräkningsmöjligheter, höghastighetslagringsåtkomst och nätverk med låg latens. Detta är särskilt viktigt för krävande applikationer som chatbots och sökverktyg som kräver omfattande databehandling.
För närvarande tillgängliga och leverans från globala leverantörer som GIGABYTE, Hewlett Packard Enterprise, Lenovo och Supermicro, NVIDIA-certifierade OVX-servrar representerar ett betydande steg i hanteringen av komplexa AI-arbetsbelastningar och lovar prestanda, säkerhet och skalbarhet i företagsklass.
Utgående Tankar
Dessutom fanns det tillkännagivanden inom området Automotive, Robotics, Healthcare och Generative AI. Alla dessa tillkännagivanden visar upp NVIDIAs obevekliga strävan efter innovation, och erbjuder avancerade verktyg och plattformar för att driva framtiden för AI och datoranvändning över flera domäner. Alla är mycket tekniska och har många komplexiteter, särskilt när det gäller kvantberäkningar och programvaruversioner. Håll ögonen öppna för analys av tillkännagivandena eftersom vi får mer information om var och en av dessa nya utgåvor.
Engagera dig med StorageReview
Nyhetsbrev | Youtube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Rssflöde