Hem Företagcloud Meta samarbetar med NVIDIA på AI Research Supercomputer

Meta samarbetar med NVIDIA på AI Research Supercomputer

by Harold Fritts
meta Research SuperCluster rackvy

Meta Platforms har valt NVIDIA DGX A100-systemet för AI Research SuperCluster (RSC). När det är fullt utplacerat förväntas Metas RSC vara det största NVIDIA DGX A100-systemet. AI Research SuperCluster (RSC) utbildar redan nya modeller för att främja AI.

Meta Platforms har valt NVIDIA DGX A100-systemet för AI Research SuperCluster (RSC). När det är fullt utplacerat förväntas Metas RSC vara det största NVIDIA DGX A100-systemet. AI Research SuperCluster (RSC) utbildar redan nya modeller för att främja AI.

Meta Research SuperCluster

meta Research SuperCluster

Metas AI Research SuperCluster har hundratals NVIDIA DGX-system kopplade till ett NVIDIA Quantum InfiniBand-nätverk för att påskynda arbetet för dess AI-forskarteam.

RSC förväntas vara helt utbyggt senare i år och Meta kommer att använda det för att träna AI-modeller med mer än en biljon parametrar. RSC kommer att göra framsteg inom områden som naturlig språkbehandling för jobb som att identifiera skadligt innehåll i realtid. Förutom prestanda i stor skala, nämnde Meta extrem tillförlitlighet, säkerhet, integritet och flexibiliteten att hantera "ett brett utbud av AI-modeller" som sina nyckelkriterier för RSC.

AI-superdatorer byggs genom att kombinera flera GPU:er till beräkningsnoder, som sedan kopplas samman med ett högpresterande nätverkstyg för att möjliggöra snabb kommunikation mellan dessa GPU:er. RSC omfattar idag totalt 760 NVIDIA DGX-A100 system som dess beräkningsnoder, för totalt 6,080 100 GPU:er — där varje A100 GPU är kraftfullare än VXNUMX som användes i det tidigare systemet.

meta Research SuperCluster-nätverk

GPU:erna kommunicerar via en NVIDIA Quantum 200 Gb/s InfiniBand Clos-tyg i två nivåer som inte har någon överteckning. RSC:s lagringsnivå har 175 petabyte Pure Storage FlashArray, 46 petabyte cachelagring i Penguin Computing Altus-system och 10 petabyte Pure Storage FlashBlade.

meta Research SuperCluster ren lagring 1

meta Research SuperCluster ren lagring 2

Tidiga riktmärken på RSC, jämfört med Metas äldre produktions- och forskningsinfrastruktur, har visat att den kör datorseende arbetsflöden upp till 20 gånger snabbare, kör NVIDIA Collective Communication Library (NCCL) mer än nio gånger snabbare och tränar storskaliga NLP-modeller tre gånger snabbare. Det betyder att en modell med tiotals miljarder parametrar kan avsluta träningen på tre veckor, jämfört med nio veckor tidigare.

När RSC är färdigt kommer InfiniBand-nätverksstrukturen att ansluta 16,000 16 GPU:er som slutpunkter, vilket gör det till ett av de största sådana nätverken som hittills har distribuerats. Dessutom kan det designade cache- och lagringssystemet tjäna 1 TB/s träningsdata och skala upp det till XNUMX exabyte.

meta Research SuperCluster rackvy

Medan RSC är igång idag, fortsätter utvecklingen. När fas två av utbyggnaden av RSC är klar, förväntas den vara den snabbaste AI-superdatorn i världen, med nästan 5 exaflops av beräkningar med blandad precision.

Arbetet kommer att fortsätta till och med 2022 för att öka antalet GPU:er från 6,080 16,000 till 2.5 16,000, vilket ökar AI-träningsprestanda med mer än 16 gånger. InfiniBand-tyget kommer att utökas för att stödja XNUMX XNUMX portar i en tvåskiktstopologi utan överabonnemang. Lagringssystemet kommer att ha en målleveransbandbredd på XNUMX TB/s och kapacitet i exabyte-skala för att möta ökad efterfrågan.

Engagera dig med StorageReview

Nyhetsbrev | Youtube | Podcast iTunes/Spotify | Instagram | Twitter | Facebook | TikTok | Rssflöde