Hem Företag StorageReview beräknade 100 biljoner siffror av Pi på 54 dagar, Besting Google Cloud

StorageReview beräknade 100 biljoner siffror av Pi på 54 dagar, Besting Google Cloud

by Jordan Ranous

Pi representerar förhållandet mellan en cirkels omkrets och dess diameter, och den har ett oändligt antal decimalsiffror som aldrig upprepas eller slutar. Att beräkna oändlig Pi är inte bara ett spännande uppdrag för matematiker; det är också ett sätt att sätta datorkraft och lagringskapacitet genom det ultimata uthållighetstestet. Hittills har Googles moln haft världsrekordet för den största Pi-lösningen på 100 biljoner siffror. Från och med idag har StorageReview matchat deras antal och gjort det på en bråkdel av tiden.

Pi representerar förhållandet mellan en cirkels omkrets och dess diameter, och den har ett oändligt antal decimalsiffror som aldrig upprepas eller slutar. Att beräkna oändlig Pi är inte bara ett spännande uppdrag för matematiker; det är också ett sätt att sätta datorkraft och lagringskapacitet genom det ultimata uthållighetstestet. Hittills har Googles moln haft världsrekordet för den största Pi-lösningen på 100 biljoner siffror. Från och med idag har StorageReview matchat deras antal och gjort det på en bråkdel av tiden.

Pi In The Sky, Above The Cloud(s)

Förra året meddelade Google Cloud Developer Advocate Emma Haruka Iwao att hon och hennes team hade beräknat Pi till 100 biljoner siffror, vilket slog hennes tidigare rekord på 31.4 biljoner siffror från 2019. De använde ett program som heter y-cruncher som kördes på Google Clouds Compute Engine, som tog cirka 158 dagar att slutföra och bearbetade cirka 82 petabyte data. I slutändan skulle den körningen också ha haft en massiv molnberäknings- och lagringsfaktura, kombinerat med den ökande farten för organisationer att ta tillbaka specifika arbetsbelastningar på plats, vilket gav oss en intressant idé...

Vi var imponerade av Emmas och Google Clouds prestation, men vi undrade också om vi kunde göra det snabbare, med lägre totalkostnad. På StorageReview.com har vi tillgång till några av den senaste och bästa hårdvaran i branschen, inklusive AMD EPYC 4:e generationens processorer, Solidigm P5316 SSDoch obscena mängder litiumbatterier. Som en match made in heaven byggde vi ut en högpresterande server med knappt 600 TB QLC-blixt och en unik kraftlösning med hög tillgänglighet.

Här är specifikationerna för vårt beräkningssystem:

Även om den totala hårdvaran kan verka extrem, är kostnaden för att köpa vår hårdvara helt enkelt fortfarande en bråkdel av att köra samma arbetsbelastning i molnet i sex månader.

Datacenter: Designat av Madmen

En av de första frågorna som dök upp när vi designade vår rigg för detta test var, "Hur ska vi presentera en sammanhängande volym som är tillräckligt stor för att lagra en textfil med 100 biljoner siffror av Pi?" (Detta är definitivt en direkt citat som vi helt sa). Matematiken är ganska enkel, 1 Pi-siffra = 1 byte, och att ha 100 biljoner decimalsiffror innebar att vi behövde 100 TB för det och ytterligare 83 TB för 83 biljoner hexadecimaler som också skulle beräknas. Tack och lov är det här StorageReview, och om det är en sak vi vet hur vi ska göra så är det att lagra massor av data med alltför stora mängder stress.

Tyvärr har inte ens Kevin en 183TB Flash-enhet på sin vaktmästarstora nyckelring av flashenheter (ännu). Så efter att ha tittat och testat olika metoder runt labbet och utforskat flera sätt att kartlägga en NAS eller en filresurs, märkte vi genom tester att y-cruncher gillar att ha direkt IO-kontroll av diskarna den arbetar med; inte bara växlingsskivorna utan även filutdatakatalogen. Att ge y-cruncher en volym som den kan skicka SCSI-kommandon till var vårt enda alternativ, eftersom det ger optimal prestanda.

Så det enda logiska att göra härnäst var att använda ett iSCSI-mål till en Supermicro lagringsserver för att lagra utdatafilerna, som var för stora för att passa på en enskild volym på den lokala datorvärden. Den här plattformen var mer traditionell i betydelsen lagring med hög kapacitet och var värd för "bara" 200 TB över fyra 50 TB LUN:er som vi satte upp på vår datorplattform.

Medan RAID 0 kan höja några ögonbryn, till vårt försvar, var filserverlagringen utskuren ur en speglad Windows Storage Spaces-pool, så redundans var tillgänglig på fjärrvärden. Det var sedan multi-pathed över ett 10G-gränssnitt med dubbla portar, direkt anslutet och kopplat mellan båda servrarna. Att ta bort en omkopplare från denna ekvation var avsiktligt, eftersom denna Pi-plattform var designad för att fungera helt separat ifall huvudlabbet skulle gå offline.

Även om strömskydd inte alltid är ett stort problem i StorageReview-labbet, krävde ett projekt av denna storleksordning (som sträcker sig över månader), extrema åtgärder för att säkerställa drifttid. Vi utnyttjade tre EcoFlow Delta Pro bärbara kraftverk, var och en med 3600W uteffekt och 3600Wh batteri.

AMD Genoa-servern utnyttjade två, med en Eaton 5PX avbrottsfri strömförsörjning inline mellan en Delta Pro, för att lindra omkopplingsfördröjningen från EcoFlow under ett avbrott. Filservern hade en Delta Pro dedikerad till den, med en Eaton 5PX G2 för överföringsförseningar.

Kort sagt, vi skapade en UPS på steroider, som kombinerar fördelarna med bärbara kraftverk med hög kapacitet med tillförlitligheten hos modern batteribackuputrustning av datacenterkvalitet. Vid maximal beräkningsbelastning hade vi en körtid på 4-8 timmar på batteri. Vi hade många stormar under hela 100T Pi-körningen, men vi kunde sova lätt, i vetskapen om att Pi-körningen skulle fortsätta att fungera.

Kött, potatis och pi. Massor och massor av Pi...

Vi startade beräkningen den 9 februari 17:40:47 2023 EST, och den slutade den 10 april 05:27:37 2023 EST. Den förflutna Pi-beräkningstiden var 54 dagar, 17 timmar, 35 minuter och 48.96 sekunder, med den totala vägg-till-vägg-tiden, inklusive skrivning och validering, 59 dagar, 10 timmar, 46 minuter och 49.55 sekunder.

Den totala lagringsstorleken var 530.1 TB tillgänglig, exklusive 200 TB iSCSI-målet för utskrivningen. Här är några höjdpunkter av räknare från y-crunchers valideringsfil, tillgänglig för nedladdning och verifiering.

Siffrorna

Startdatum: Tors 9 februari 17:40:47 2023

Arbetsmodell:

  • Konstant: Pi
  • Algoritm: Chudnovsky (1988)
  • Decimalsiffror: 100,000,000,000,000 XNUMX XNUMX XNUMX XNUMX
  • Hexadecimala siffror: 83,048,202,372,185 XNUMX XNUMX XNUMX XNUMX
  • Arbetsminne: 1,512,978,804,672 1.38 XNUMX XNUMX XNUMX (XNUMX TiB)
  • Totalt minne: 1,514,478,305,280 1.38 XNUMX XNUMX XNUMX (XNUMX TiB)

Logiska diskräknare:

  • Logiskt största kontrollpunkt: 150,215,548,774,568 137 XNUMX XNUMX XNUMX ( XNUMX TiB)
  • Logisk toppdiskanvändning: 514,540,112,731,728 468 XNUMX XNUMX XNUMX ( XNUMX TiB)
  • Totalt antal byte för logisk disk: 40,187,439,132,182,512 35.7 XNUMX XNUMX XNUMX XNUMX (XNUMX PiB)
  • Totalt antal byte för logisk disk: 35,439,733,386,707,040 31.5 XNUMX XNUMX XNUMX XNUMX (XNUMX PiB)

Siffror ljuger inte:

  • Total beräkningstid: 4728948.966 sekunder
  • Väggtid från början till slut: 5136409.559 sekunder
  • Sista decimalsiffrorna:
    • 4658718895 1242883556 4671544483 9873493812 1206904813: 99,999,999,999,950 XNUMX XNUMX XNUMX XNUMX
    • 2656719174 5255431487 2142102057 7077336434 3095295560: 100,000,000,000,000 XNUMX XNUMX XNUMX XNUMX

Slutdatum: mån 10 april 05:27:37 2023

De tio siffrorna i Pi som leder fram till 100 biljoner är 3095295560.

Vi beräknade Pi till 100 biljoner siffror på ungefär en tredjedel av tiden, delvis tack vare allt lokalt utbyteslagringsutrymme jämfört med Googles metod. Detta visar den otroliga prestandan, densiteten och effektiviteten hos lokalt anslutna Solidigm P5316 QLC SSD:er och, naturligtvis, AMD EPYC 4:e generationens processorer.

Lokal lagring var en integrerad del av denna hastighetskörning. Medan Googles körning kunde utnyttja nästan obegränsade mängder lagring, var den begränsad till ett 100 Gb nätverksgränssnitt. Det är konstigt att säga att 100 Gb är långsamt, men i omfattningen av vårt test blir det en enorm flaskhals. Under våra swap-skrivskurar mätte vi ackumulerade överföringshastigheter till Solidigm P5316 QLC SSD-enheter uppåt 38 GB/s.

Läshastigheterna var ännu högre. I nätverkstermer skulle du behöva flera 400 Gb-länkar (redundans) för att flöda den mängden data. Även om det inte är omöjligt, är många molnmiljöer helt enkelt inte byggda för den nivån av bandbredd. Oracles rena metall Dense I/O-instanser kommer förmodligen närmast denna skala av råhastighet, men de är begränsade till åtta NVMe SSD:er och 54.4 TB kapacitet tillsammans.

Solidigm QLC Flash för prestanda, uthållighet och densitet

För att underlätta en så betydande beräkning behövde vi utrymme, och mycket av det, så fort vi kunde hitta det. Swap-läge är en funktion i y-cruncher som gör att beräkningar kan utföras med hjälp av disk, vilket krävs för att utföra stora beräkningar som inte får plats i huvudminnet. Att använda flera enheter parallellt är nödvändigt för bättre prestanda, och för att ytterligare förbättra prestandan kan Solid State Drives (SSD) användas. Det har dock inte rekommenderats tidigare eftersom den teoretiska analysen av deras skrivkläder inte är uppmuntrande.

Användningen av y-crunchers swap-läge, istället för att förlita sig på OS-sidfilen, är väsentlig eftersom minnesåtkomstmönstren i y-cruncher inte är direkt diskvänliga. Tack och lov är y-crunchers växlingsläge utformat för att övervinna denna begränsning genom att minimera disksökningar och använda sekventiella diskåtkomster. y-crunchers Swap-läge användes i en RAID 0-konfiguration med 19 enheter, vilket gav applikationen direkt IO-åtkomst till NVMe-diskarna för optimal prestanda.

Solidigm P5316 SSD:erna vi använde i vårt test använder ett PCIe Gen4-gränssnitt och är utrustade med 144-lagers QLC NAND-flashminne. De erbjuder exceptionell prestanda, med upp till 7 GB/s sekventiell läshastighet och upp till 3.6 GB/s sekventiell skrivhastighet.

QLC solid-state-enheter är kända för sin förmåga att sänka kostnader utan att kompromissa med lagringskapacitet och effektiv prestanda. Detta gör QLC SSD-teknik till fördel för många affärssituationer. Till exempel införlivar VAST Data dessa enheter i sina produkter för att eliminera behovet av hårddiskar. Samtidigt använder Pliops ett acceleratorkort med QLC-enheter för en snabb och kostnadseffektiv upplösning.

Vi har haft dessa enheter i vårt labb sedan slutet av 2021 och har genomgått många tester, men detta var ett av de mest intensiva och omfattande testerna hittills. Av de 19 enheterna vi använde hade alla 99-100% hälsa vid början av beräkningen.

Under de 54.5 dagarna som denna beräkning kördes hade vi totalt 33,127,095 1,742,500 29 GB skriv till enheterna, eller cirka XNUMX XNUMX XNUMX GB per enhet. Om vi ​​konverterar detta till ett dagligt överskott under vår körning, är det lite mer än XNUMX TB per enhet och dag.

Att extrapolera för en simulerad långsiktig arbetsbelastning är cirka 10.69 PB per år av dataskrivningar per enhet. Solidigm listar uthålligheten för P5316 vid 22.9 PBW för slumpmässiga arbetsbelastningar och 104.6 PBW för sekventiella arbetsbelastningar. När Pi-arbetsbelastningen förblev i explosion under sin varaktighet utan att kraftigt stressa blixten, agerade den mycket sekventiellt, vilket placerade arbetsbelastningen mot den högre delen av Solidigms uthållighetsspektrum.

Detta innebär att du kan utsätta dessa för en liknande arbetsbelastning i nästan ett decennium innan du skulle få slut på livet. Minst sagt imponerande, med tanke på att detta är QLC NAND och enhetens garanti är fem år. Alla som oroar sig för att slita ut dessa enheter kan använda detta användningsfall som ytterligare en valideringspunkt för att QLC är redo för företag.

I slutet av den 59.5 dagar långa körningen rapporterades hälsostatus som 97-98 % för alla enheter på servern. Vi hade knappt gjort ett hack i uthålligheten i dessa drev.

Episka AMD EPYC-processorer

AMD EPYC 4:e generationens processorer är baserade på Zen 4-mikroarkitekturen och 5nm-processen, vilket gör dem till branschens första 5nm x86-datacenterprocessorer. De stöder upp till 12 kanaler med DDR5-minne, AVX-512 VNNI och BFloat16-instruktioner för förbättrad prestanda i AI- och ML-applikationer. De erbjuder upp till 30 % mer prestanda per kärna än Intels Ice Lake-processorer och upp till dubbelt så mycket prestanda som AMDs tidigare generation EPYC Milan-processorer.

amd genoa bare cpu

Tuning var en stor del av denna körning, eftersom vi hade testat och itererat genom mindre, tidigare hållna rekord av Pi-beräkningar, som 1 miljard och 10 miljarder. Genom en viss justering med BIOS och att använda 10 miljarder körtid som ett mått, kunde vi uppnå betydande prestandaförbättringar för denna arbetsbelastning. Detta gav oss en betydande fördel jämfört med att använda molnresurser eftersom vi hade granulär kontroll över plattformen för att optimera den för vår applikation, vilket inte är ett alternativ med off-the-shelf molninstanser.

Vi började med att inaktivera SMT i BIOS och plockade upp några % förbättringar på de mindre testernas körtid. Nästa alternativ som vi utforskade var C-States. Vi märkte att när y-cruncher kördes, tenderade CPU:n att hoppa in och ut ur c-tillstånd med lägre effekt ganska ofta eftersom den gick igenom olika processer.

Justeringen av BIOS-inställningarna, inklusive inaktivering av SMT och kontroll av C-tillstånd, kombinerat med vissa prestandajusteringar av operativsystemet, var en avgörande faktor för att förbättra prestandan för denna arbetsbelastning. Ett stort rop till Alexander Yee från y-Cruncher, och en vän från överklockningsscenen, Forks, för att de hjälper till att peka ut några justeringar och inställningar i både Windows och y-Cruncher för att hjälpa till att få denna körning att gå ihop.

Pi; 100T Speed ​​Run, 100 %. Nu då?

Nåväl, gott folk, när vi avslutar denna Pi-grimage, låt oss ta en stund för att sola oss i härligheten av att beräkna hela 100 biljoner siffror av Pi på bara 54 små dagar! Tack vare y-cruncher-programmet, den herkuliska styrkan hos AMD EPYC 4:e generationens processorer och de blixtsnabba Solidigm P5316 QLC SSD:erna har vi sett en prestation som kommer att få din räknare att rodna.

Genom att tänja på gränserna för rå datorkraft och datalagring i oceanisk storlek, fick vårt pålitliga team av lokalt anslutna QLC-flashlagringsenheter verkligen sin tid att skina. Solidigm P5316 SSD-enheter, med sin exceptionella uthållighet och prestanda, är som affärsvärldens superhjälte-sidekicks. Och låt oss inte glömma våra bärbara kraftstationer och kraftiga reservutrustning för batteri, som säkerställer att vår Pi-rade fortsatte att rulla – även när Moder Natur försökte regna på vårt perfekt bakade firande.

Så, när vi säger adieu till denna rekordstora Pi-extravaganza, låt oss höja en bit till de oändliga möjligheterna i matematikens och datavetenskapens världar som ligger framför oss. Skål!

Besök Solidigm

Engagera dig med StorageReview

Nyhetsbrev | Youtube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Rssflöde