I en häpnadsväckande uppvisning av beräkningsskicklighet har StorageReview Lab Team satt ett världsrekord i rad genom att beräkna pi till otroliga 202,112,290,000,000 siffror. Denna anmärkningsvärda prestation överskuggar det tidigare rekordet på 105 biljoner siffror, som också innehas av laget. Den visar upp de oöverträffade egenskaperna hos moderna högpresterande datorer och korrekt designade hårdvaruplattformar.
I en häpnadsväckande uppvisning av beräkningsskicklighet har StorageReview Lab Team satt ett världsrekord i rad genom att beräkna pi till otroliga 202,112,290,000,000 siffror. Denna anmärkningsvärda prestation överskuggar det tidigare rekordet på 105 biljoner siffror, som också innehas av laget. Den visar upp de oöverträffade egenskaperna hos moderna högpresterande datorer och korrekt designade hårdvaruplattformar.
Oöverträffad Computational Feat
StorageReview Lab Team använde en mycket avancerad installation för att åstadkomma denna bedrift. Utnyttja Intel Xeon 8592+ processorer och Solidigm P5336 61.44 TB NVMe SSD:er, teamet körde en nästan kontinuerlig beräkning i 85 dagar och förbrukade nästan 1.5 Petabyte utrymme över 28 Solidigm SSD:er. Detta banbrytande projekt visar betydande framsteg i både beräkningskraft och effektivitet.
"Det här nya rekordet belyser den extraordinära potentialen hos dagens högpresterande datorinfrastruktur", säger Jordan Ranous, systemarkitekten från StorageReview Lab Team. "Genom att uppnå denna milstolpe sätter vi inte bara nya riktmärken inom beräkningsmatematik utan banar också väg för framtida innovationer inom olika vetenskapliga och tekniska discipliner."
I mars 2024 uppnådde StorageReview Lab Team ett världsrekord genom att beräkna pi till 105 biljoner siffror. Genom att använda ett AMD EPYC-system med dubbla processorer med 256 kärnor och nästan en petabyte av Solidigm QLC SSD:er tacklade teamet betydande tekniska utmaningar, inklusive minnes- och lagringsbegränsningar. Denna milstolpe demonstrerade modern hårdvaras kapacitet och gav värdefulla insikter om att optimera högpresterande datorsystem.
"Inte bara fungerade Solidigm-diskarna och Dell PowerEdge R760 perfekt tillsammans, den nya skivans nästan praktiska karaktär var en välkommen förändring efter farorna med vårt senaste rekordförsök", säger Kevin O'Brien, StorageReview Lab Director. "Efter det vi gick igenom på den senaste testkörningen till 105, är jag glad att vi valde den plattform vi gjorde för det stora rekordet," fortsatte han. För mer information om det tidigare försöket med 105 biljoner siffror och utmaningarna kan du läsa hela artikeln här..
CompSci och matematiklektion
När vi först började titta på roliga sätt att testa SSD:er med stor kapacitet, var det uppenbara svaret i våra CPU- och systemrecensioner: y-cruncher. När man använder swap-utrymme för omfattande beräkningar är utrymmesbehovet ungefär 4.7:1 på siffrorna, så 100 biljoner siffror behöver cirka 470TiB utrymme. Utan att gå för djupt in i matte- och datavetenskapens ogräs är y-cruncher, Chudnovsky-algoritmen, baserad på en snabbt konvergerande serie som härrör från teorin om modulära funktioner och elliptiska kurvor. Kärnan i algoritmen bygger på följande oändliga serier:
Den främsta frågan vi fick angående våra 100T- och 105T-beräkningar var: "Okej, ingen stor sak. Varför tar det här så lång tid och behöver så mycket minne?” Denna fråga var bland andra irriterande bekymmer om öppen källkod och Alex Yees programmeringsmöjligheter. Låt oss ta ett steg tillbaka och titta på detta från systemnivå.
Att beräkna ett stort antal siffror i Pi, till exempel 100 biljoner, kräver stort utrymme på grund av de stora aritmetiska operationerna. Utmaningen ligger främst i att multiplicera stora tal, vilket i sig kräver betydande minne. Till exempel behöver de bästa algoritmerna för att multiplicera N-siffriga tal ungefär 4N byte minne, varav de flesta fungerar som skraputrymme. Detta minne måste nås flera gånger under beräkningen, vilket gör processen till en disk I/O-intensiv uppgift snarare än en CPU-bunden.
Chudnovsky-formeln, som ofta används för att beräkna många siffror i Pi, kräver omfattande aritmetiska operationer. Dessa multiplikations-, divisions- och kvadreringsoperationer reduceras ofta till stora multiplikationer. Historiskt sett använde superdatorer AGM-algoritmer, som, trots att de var långsammare, var lättare att implementera och drog nytta av den råa kraften hos många maskiner. Men moderna framsteg har flyttat flaskhalsen från beräkningskraft till minnesåtkomsthastigheter.
Processor Aritmetic Logic Units (ALU) och Floating Point Units (FPU) hanterar dessa stora multiplikationstal på samma sätt som manuell multiplikation på papper, och delar upp dem i mindre, hanterbara operationer. Tidigare var Pi-beräkningar beräkningsbundna, men dagens beräkningskraft överträffar minnesåtkomsthastigheter, vilket gör lagring och tillförlitlighet till de kritiska faktorerna för att sätta Pi-rekord. Till exempel observerades liten prestandaskillnad mellan vår 128-kärniga Intel-maskin och en 256-kärnig AMD Bergamo; fokus låg på disk I/O effektivitet.
Solidigm SSD:er spelar en avgörande roll i dessa beräkningar, inte på grund av deras inneboende hastighet utan på grund av deras exceptionella lagringstäthet. Konsumentklassade NVMe-enheter kan lagra upp till 4 TB i en liten volym, medan SSD:er för företag staplar dessa chips för ännu större kapacitet. Även om QLC NAND kan vara långsammare än andra typer av flashminnen, ger parallelliteten i dessa täta SSD-enheter högre sammanlagd bandbredd, vilket gör dem idealiska för storskaliga Pi-beräkningar.
Solidigm QLC NVMe SSD:er, möjliggör galenskapen
Okej, om du fortfarande är vaken och med mig här, är allt du behöver veta att när beräkningssiffror är för stora för att passa in i minnet, måste datorer använda mjukvarualgoritmer för aritmetik med flera precisioner. Dessa algoritmer bryter ner de stora siffrorna i hanterbara bitar och utför uppdelningen med hjälp av speciella tekniker. Det är här Solidigm P5336 61.44 TB NVMe SSD:er kommer in. y-cruncher tar dessa hanterbara bitar, samlar dem i systemminnet först och byter sedan ut dem till ett skrapdiskutrymme.
Kom ihåg att vi behöver ungefär 4.7:1 för bytet, eftersom varje del av den läskiga formeln där uppe måste representeras av många, många bitar.
y-cruncher har en inbyggd estimerare för mängden diskutrymme som behövs (fortfarande märkt disk*hosta*) som vi fann vara helt korrekta i detta och tidigare körningar.
Även om du kan slänga några hårddiskar eller något objektlagring på den, är den råa storleken bara en enda del av en mycket komplex ekvation, som vi upptäckte i vår första omgång. Möjligheten att få tillräckligt stor och tillräckligt snabb lagring nära datorenheten är ett återkommande tema i vårt liv på StorageReview nuförtiden med uppsving av AI. Utbytesutrymmets prestanda är den enskilt största flaskhalsen i denna beräkning. Direktansluten NVMe är den högsta tillgängliga prestandan, och även om vissa alternativ kan ha den snabbaste genomströmningen per enhet, klarade vårt stora, mycket täta utbud av QLC sammantaget mer än uppgiften.
Consumer Drive och CPU-prestanda. INTE journalsystemet
y-cruncher har ett inbyggt riktmärke som låter dig dra i alla spakar och justera rattarna för att hitta de bästa prestandainställningarna för dina diskar. Detta är extremt Viktig. Skärmdumpen ovan visar att riktmärket ger feedback för detta konsumentsystem, med mätvärden om hur snabbt CPU:n kan knacka igenom och SSD-prestandan.
Alex har viss omfattande dokumentation tillgänglig, men för att koka ner allt, fann vi genom veckors testning att bara att låta y-cruncher interagera med enheterna direkt är den bästa vägen att gå. Vi har testat nätverksmål, enheter bakom ett SAS RAID-kort, NVMe RAID-kort och iSCSI-mål. När man ger kontroll över hårdvaran till y-cruncher är prestandan natt och dag. iSCSI verkar också acceptabelt, men vi testade bara det för utdatafilen, som kan använda "Direct IO" för den interaktionen. RAID-koden för växlingsläget måste vara relativt genomtänkt, och vi kan utläsa från vårt testande och samtal med utvecklaren att den fungerar med diskarna på en låg nivå.
Solidigm-enheterna på 61.44 TB börjar dyka upp som det bästa svaret på många smärtor i det utrymmet. När vi kör riktmärket på vårt system ser vi att enheterna presterar enligt specifikation för både läsning och skrivning. Vi valde specifikt Intel-processorerna för att kunna vara så nära det optimala 2:1 Drive to Computation-förhållandet. Detta är det optimala förhållandet, så att du inte slösar tid på processorn och väntar på att enheter ska prestera. När drivtekniken blir snabbare kan vi göra mer omfattande, snabba körningar genom att välja CPU:er med högre kärnantal.
"Anpassad" Dell PowerEdge R760-server
Som ordspråket säger, tredje gången är en charm. Det här är inte vår första rodeo med slående rekord med Pi; vi tog lärdomar från våra första två iterationer för att bygga den bästa Pi-plattformen. Vår första konstruktion utnyttjade en 2U-server med 16 NVMe-fack och tre interna SSD-slädar. Med 30.72 TB Solidigm P5316 SSD:er innehöll vi byteslagringen för y-cruncher, men vi var tvungna att utnyttja en hårddiskbaserad lagringsserver för utdatafilen. Det var mindre än optimalt, särskilt under slutet av utskrivningsfasen. Vår andra plattform använde samma server, med en extern NVMe JBOF ansluten, vilket gav oss ytterligare NVMe-fack – men till priset av känsliga kablar och obalanserad prestanda. Nackdelen med båda plattformarna var att behöva förlita sig på extern hårdvara under hela y-cruncher-körningen till priset av extra kraft och ytterligare felpunkter.
För den här körningen ville vi utnyttja en helt direkt NVMe-server och ha tillräckligt med utrymme för vår y-cruncher swap-lagring och utgångslagring under ett plåttak. Gå in i Dell PowerEdge R760 med NVMe Direct Drives-bakplanet med 24 fack. Den här plattformen utnyttjar en intern PCIe-switch för att få alla NVMe-enheter att prata med servern samtidigt, och kringgår alla behov av ytterligare hårdvara eller RAID-enheter. Vi satte sedan ihop en PCIe-riser-konfiguration från flera R760 i vår labbmiljö, vilket gav oss fyra PCIe-platser på baksidan för ytterligare U.2-monterade NVMe SSD:er. En bonus var att ta bort större kylflänsar från en annan R760, vilket gav oss så mycket turbo-boost höjd som möjligt. Direct Liquid Cooling kom till vårt labb en månad för sent för att kunna implementeras i denna körning.
"StorageReview Lab Teams beräkning av pi till över 202 biljoner siffror, uppnådd med 5th Gen Intel Xeon-processor, understryker kraften och effektiviteten hos dessa processorer. Utnyttja det ökade antalet kärnor och avancerade prestandafunktioner hos 5:anth Gen Xeon-processor, denna milstolpe sätter ett nytt riktmärke inom beräkningsmatematik och fortsätter att bana väg för innovationer inom olika vetenskapliga och tekniska arbetsbelastningar." sade Suzi Jewett, Intels general manager för 5th Gen Intel Xeon-processorprodukter
Även om du tekniskt sett kunde beställa en Dell-konfiguration exakt som den som användes i den här körningen, var det inget de hade liggande och behövde sättas ihop. (Kanske kommer Michael att köra en begränsad upplaga "Pi"-batch av R760s med denna exakta konfiguration, anpassad färg och SR-logotypen.)
Strömförsörjningsstorleken var också avgörande för denna körning. Medan de flesta omedelbart skulle tro att processorerna drar det mesta av strömmen, är det en betydande effekt att ha 28 NVMe SSD:er under ett tak. Vår konstruktion utnyttjade 2400W PSU, som, som det visade sig, bara knappt fungerade. Vi hade några få strömavbrottsögonblick på nästan kritiska nivåer där vi skulle ha haft underström om systemet hade tappat en strömförsörjningsanslutning. Detta slog till tidigt; strömförbrukningen skjuter i höjden medan CPU-belastningen toppade, och systemet ökade I/O-aktiviteten till alla SSD:er. Om vi var tvungna att göra detta igen hade 2800W-modellerna varit att föredra.
Prestationsspecifikationer
Tekniska höjdpunkter
- Totalt beräknade siffror: 202,112,290,000,000
- Hårdvara används: Dell PowerEdge R760 med 2x Intel Xeon 8592+ processorer, 1TB DDR5 DRAM, 28x Solidigm 61.44TB P5336
- Programvara och algoritmer: y-cruncher v0.8.3.9532-d2, Chudnovsky
- Datalagring: 3.76 PB skrivet per enhet, 82.7 PB över de 22 diskarna för swap-array
- Beräkningslängd: 100.673 dagar
y-cruncher telemetri
- Logiskt största kontrollpunkt: 305,175,690,291,376 278 XNUMX XNUMX XNUMX ( XNUMX TiB)
- Logisk toppdiskanvändning: 1,053,227,481,637,440 958 XNUMX XNUMX XNUMX ( XNUMX TiB)
- Logiska diskbytes lästa: 102,614,191,450,271,272 91.1 XNUMX XNUMX XNUMX XNUMX (XNUMX PiB)
- Logiska diskbytes skrivna: 88,784,496,475,376,328 78.9 XNUMX XNUMX XNUMX XNUMX (XNUMX PiB)
- Startdatum: tis 6 februari 16:09:07 2024
- Slutdatum: Mån 20 maj 05:43:16 2024
- Pi: 7,272,017.696 84.167 XNUMX XNUMX sekunder, XNUMX XNUMX dagar
- Total beräkningstid: 8,698,188.428 100.673 XNUMX XNUMX sekunder, XNUMX XNUMX dagar
- Väggtid från början till slut: 8,944,449.095 103.524 XNUMX XNUMX sekunder, XNUMX XNUMX dagar
Den största kända siffran i Pi är 2, vid position 202,112,290,000,000 (tvåhundratvå biljoner, hundra tolv miljarder, tvåhundranittio miljoner).
Bredare konsekvenser
Även om det kan verka som en abstrakt utmaning att beräkna pi till ett så stort antal siffror, har de praktiska tillämpningarna och teknikerna som utvecklats under detta projekt långtgående konsekvenser. Dessa framsteg kan förbättra olika beräkningsuppgifter, från kryptografi till komplexa simuleringar inom fysik och teknik.
Den senaste 202 biljonersiffriga pi-beräkningen belyser betydande framsteg i lagringstäthet och totala ägandekostnader (TCO). Vår installation uppnådde häpnadsväckande 1.720 petabyte NVMe SSD-lagring inom ett enda 2U-chassi. Denna densitet representerar ett steg framåt i datalagringskapacitet, särskilt med tanke på den totala strömförbrukningen som toppade på endast 2.4 kW under full CPU- och enhetsbelastning.
Denna energieffektivitet står i kontrast till traditionella HPC-rekordkörningar som förbrukar betydligt mer ström och genererar överdriven värme. Strömförbrukningen ökar exponentiellt när du räknar in ytterligare noder för utskalade lagringssystem om du behöver utöka delad lagring med låg kapacitet jämfört med lokal lagring med hög densitet. Värmehantering är avgörande, särskilt för mindre datacenter och serverskåp. Att kyla traditionella HPC-registreringssystem är ingen liten bedrift, eftersom det kräver datacenterkylare som kan dra mer ström än utrustningen som körs ensam. Genom att minimera strömförbrukningen och värmeeffekten erbjuder vår installation en mer hållbar och hanterbar lösning för små företag. Som en bonus utfördes större delen av vår löpning med friskluftkylning.
För att sätta detta i perspektiv, föreställ dig vilka utmaningar de som kör med delad nätverkslagring och ooptimerade plattformar står inför. Dessa inställningar skulle kräva en eller flera datacenterkylare för att hålla tempen i schack. I dessa miljöer leder varje sparad watt till mindre kylbehov och lägre driftskostnader, vilket gör vårt tillvägagångssätt med hög densitet och låg effekt till ett idealiskt val. En annan viktig fördel med att köra en slank och effektiv plattform för en rekordkörning är att skydda hela installationen med batteribackuphårdvara. Som tidigare nämnts skulle du behöva batteribackuper för datorservrar, switching, lagringsservrar, kylare och vattenpumpar för att hålla den vid liv under en stor del av året.
Sammantaget visar denna rekordstora prestation potentialen hos nuvarande HPC-tekniker och understryker vikten av energieffektivitet och värmehantering i moderna datormiljöer.
Säkerställa noggrannhet: Bailey–Borwein–Plouffe-formeln
Att beräkna pi till 202 biljoner siffror är en monumental uppgift, men att säkerställa noggrannheten hos dessa siffror är lika viktigt. Det är här Bailey–Borwein–Plouffe (BBP) formeln kommer in i bilden.
BBP-formeln tillåter oss att verifiera pi:s binära siffror i hexadecimalt (bas 16) format utan att behöva beräkna alla föregående siffror. Detta är särskilt användbart för att korskontrollera delar av vår massiva beräkning.
Två av verifieringsberäkningarna.
Här är en förenklad förklaring:
- Hexadecimal utgång: Vi genererar först pi:s siffror i hexadecimal under huvudberäkningen. BBP-formeln kan beräkna vilken godtycklig individuell siffra som helst av pi i bas 16 direkt. Du kan göra detta med andra program som GPUPI, men y-cruncher har också en inbyggd funktion. Om du föredrar ett tillvägagångssätt med öppen källkod, formlerna är välkända.
- Korsverifiering: Vi kan jämföra dessa resultat med vår huvudberäkning genom att beräkna specifika positioner för pi:s hexadecimala siffror oberoende med BBP-formeln. Om de matchar, tyder det starkt på att hela vår sekvens är korrekt. Vi gjorde denna dubbelkontroll över sex gånger; här är två av dem.
Till exempel, om vår primära beräkning ger samma hexadecimala siffror som de som erhålls från BBP-formeln vid olika punkter, kan vi med säkerhet hävda riktigheten hos våra siffror. Denna metod är inte bara teoretisk; det har tillämpats praktiskt i alla viktiga pi-beräkningar, vilket säkerställer robusthet och tillförlitlighet i resultaten.
R= Officiellt körningsresultat, V= Verifieringsresultat
- R: f3f7e2296 822ac6a8c9 7843dacfbc 1eeb4a5893 37088*
- V: *3f7e2296 822ac6a8c9 7843dacfbc 1eeb4a5893 370888
Sköna läsare kommer att notera att verifikationerna från skärmdumparna och jämförelsen ovan är lite förskjutna(*). Även om det inte är nödvändigt, eftersom hexen skulle påverkas i slutet, kollade vi också några andra platser (som 100 biljoner och 105 biljoner siffror) för att säkerställa att körningen matchade. Medan det är teoretiskt möjligt att beräkna vilken decimalsiffra som helst av pi med en liknande metod är det oklart om det skulle ha precision över bara 100 miljoner siffror eller till och med vara beräkningseffektivt för att göra det, snarare än att göra Chudnovsky-matematiken och få dem alla. (Om Eric Weisstein ser detta, sträck ut handen, jag skulle vilja ta ett hugg på det.)
Genom att integrera denna matematiska korskontrollprocess kan vi säkerställa integriteten hos vår rekordstora 202 biljoner siffror pi-beräkning, vilket visar vår beräkningsprecision och engagemang för vetenskaplig noggrannhet.
Vägen framför
Uppnåendet av att beräkna pi till över 202 biljoner siffror av StorageReview Lab Team är ett bevis på de anmärkningsvärda framstegen inom högpresterande dator- och lagringsteknik. Denna rekordstora bedrift, som använder Intel Xeon 8592+ processorer i våra Dell PowerEdge R760 och Solidigm 61.44TB QLC NVMe SSD:er, framhäver möjligheterna hos modern hårdvara för att hantera komplexa och resurskrävande uppgifter med oöverträffad effektivitet. Projektets framgång visar inte bara upp StorageReview-teamets skicklighet utan understryker också potentialen hos dagens HPC-infrastruktur för att tänja på gränserna för beräkningsmatematik och andra vetenskapliga discipliner.
"Det här nya Pi-världsrekordet är en spännande prestation eftersom denna beräkningsbelastning är lika intensiv som många av de AI-arbetsbelastningar vi ser idag. Solidigm D5-P5336 61.44TB SSD:er har ännu en gång bevisat att den kraftfulla kombinationen av ultrahög kapacitet, PCIe 4 mättande läsprestanda och höga Petabyte skrivna, kan motstå och släppa lös några av dagens mest krävande applikationer”, sa Greg Matson, VP, Solidigms Data Center Storage Group. "Vi är glada över att ha fått möjligheten att möjliggöra ytterligare ett rekordstort försök att beräkna Pi med våra partners på Dell Technologies och experterna på StorageReview."
Denna strävan erbjuder också värdefulla insikter om att optimera lagringstäthet och energieffektivitet, vilket banar väg för mer hållbara och hanterbara datorlösningar. När vi fortsätter att utforska möjligheterna med HPC, kommer lärdomarna från detta projekt utan tvekan att driva på framtida innovationer, som gynnar olika områden, från kryptografi till teknik. StorageReview Lab Teams prestation står som ett landmärke i beräkningshistorien, och visar att vi kan nå nya höjder av vetenskaplig upptäckt och tekniska framsteg med rätt kombination av hårdvara och expertis.
Erkännanden
StorageReview Lab-teamet tackar Solidigm, Dell Technologies, Intel och y-cruncher Alex Yee för deras orubbliga stöd och bidrag till detta projekt.
Engagera dig med StorageReview
Nyhetsbrev | Youtube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Rssflöde