首頁 企業 StorageReview 實驗室以超過 202 兆位元數字打破 Pi 運算世界紀錄

StorageReview 實驗室以超過 202 兆位元數字打破 Pi 運算世界紀錄

by 喬丹拉努斯

StorageReview 實驗室團隊展現了令人驚嘆的運算能力,將 pi 計算到令人難以置信的 202,112,290,000,000 位數字,連續創造了世界紀錄。這一非凡成就超越了該團隊之前保持的 105 兆位數的記錄。它展示了現代高效能運算和正確設計的商用硬體平台的無與倫比的功能。

StorageReview 實驗室團隊展現了令人驚嘆的運算能力,將 pi 計算到令人難以置信的 202,112,290,000,000 位數字,連續創造了世界紀錄。這一非凡成就超越了該團隊之前保持的 105 兆位數的記錄。它展示了現代高效能運算和正確設計的商用硬體平台的無與倫比的功能。

前所未有的計算壯舉

StorageReview 實驗室團隊利用高度先進的設定來完成這項壯舉。利用 Intel Xeon 8592+ CPU 和 固力P5336 61.44TB NVMe SSD,團隊幾乎連續運行了 85 天的計算,在 1.5 個 Solidigm SSD 上消耗了近 28 PB 的空間。這個開創性的項目展示了計算能力和效率的顯著進步。

「這項新記錄凸顯了當今高效能運算基礎架構的非凡潛力,」StorageReview 實驗室團隊的系統架構師 Jordan Ranous 說。 “通過實現這一里程碑,我們不僅在計算數學方面樹立了新的基準,而且還為各個科學和工程學科的未來創新鋪平了道路。”

2024 年 XNUMX 月,StorageReview 實驗室團隊透過將 pi 計算為 105萬億位。該團隊利用具有 256 個核心的雙處理器 AMD EPYC 系統和近 PB 的 Solidigm QLC SSD,解決了重大的技術挑戰,包括記憶體和儲存限制。這項里程碑展示了現代硬體的功能,並為優化高效能運算系統提供了寶貴的見解。

StorageReview 實驗室主任Kevin O'Brien 表示:「Solidigm 驅動器和Dell PowerEdge R760 不僅可以完美地協同工作,而且在經歷了上一次記錄嘗試的危險之後,這一新記錄的近乎不干涉的性質是一個值得歡迎的變化。 「在我們經歷了最後一次 105 測試運行之後,我很高興我們選擇了我們為大記錄所做的平台,」他繼續說道。有關之前 105 萬億位數的嘗試和挑戰的更多詳細信息,您可以閱讀全文 點擊這裡.

計算機科學和數學課程

當我們第一次開始尋找測試大容量 SSD 的有趣方法時,顯而易見的答案是我們的 CPU 和系統評論:y-cruncher。當利用交換空間進行大量計算時,數字上的空間需求約為 4.7:1,因此 100 兆數字需要約 470TiB 的空間。在不深入數學和計算機科學雜草的情況下,y-cruncher(Chudnovsky 演算法)是基於從模函數和橢圓曲線理論導出的快速收斂級數。此演算法的核心依賴以下無窮級數:

關於 100T 和 105T 計算,我們收到的第一個問題是:「好吧,沒什麼大不了的。為什麼這需要這麼長時間並且需要這麼多內存?這個問題是關於開源和 Alex Yee 的程式設計能力的其他令人煩惱的問題之一。讓我們退後一步,從系統層面來看這個問題。

由於涉及大量算術運算,計算 Pi 的大量數字(例如 100 兆)需要大量空間。挑戰主要在於將大數相乘,這本質上需要大量的記憶體。例如,乘以 N 位數的最佳演算法需要大約 4N 位元組的內存,其中大部分用作暫存空間。在計算過程中必須多次存取該內存,從而將進程轉變為磁碟 I/O 密集型任務,而不是 CPU 密集型任務。

楚德諾夫斯基公式廣泛用於計算 Pi 的許多位,需要大量的算術運算。這些乘法、除法和平方運算通常會簡化為大型乘法。從歷史上看,超級電腦使用 AGM 演算法,儘管速度較慢,但更容易實現,並受益於眾多機器的強力。然而,現代的進步已將瓶頸從運算能力轉移到記憶體存取速度。

處理器算術邏輯單元 (ALU) 和浮點單元 (FPU) 處理這些大乘法數字的方式與紙上手動乘法類似,將它們分解為更小的、可管理的運算。以前,Pi 計算受限,但如今的運算能力超過了記憶體存取速度,使得儲存和可靠性成為設定 Pi 記錄的關鍵因素。例如,我們的 128 核心 Intel 機器和 256 核心 AMD Bergamo 機器之間幾乎沒有觀察到效能差異;重點是磁碟 I/O 效率。

Solidigm SSD 在這些運算中發揮著至關重要的作用,不是因為其固有的速度,而是因為其卓越的儲存密度。消費級 NVMe 硬碟可以在小容量中儲存高達 4TB 的數據,而企業級 SSD 則堆疊這些晶片以獲得更大的容量。儘管 QLC NAND 可能比其他類型的快閃記憶體慢,但這些密集 SSD 的並行性可提供更高的聚合頻寬,使其成為大規模 Pi 運算的理想選擇。

Solidigm QLC NVMe SSD,引發瘋狂

好吧,如果你還醒著,並且和我在一起,你需要知道的是,當計算數字太大而無法裝入內存時,計算機必須使用軟體演算法進行多精度運算。這些演算法將大量數字分解為可管理的區塊,並使用特殊技術執行除法。這就是 固力P5336 61.44TB NVMe SSD 登場。

請記住,我們需要大約 4.7:1 進行交換,因為那個可怕公式的每個部分都必須由很多很多位表示。

y-cruncher 有一個內建的估計器,用於估計所需的驅動器空間量(仍然標記為磁碟*咳嗽*),我們發現它在本次運行和過去的運行中非常準確。

雖然您可以將一些 HDD 或一些物件儲存扔給它,但原始大小只是一個非常複雜的方程式的一部分,正如我們發現的那樣 在我們的第一輪比賽中。 隨著人工智慧的興起,在靠近運算設備的地方獲得足夠大、足夠快的儲存的能力是我們 StorageReview 生活中反覆出現的主題。交換空間的效能是該計算中最大的瓶頸。直連 NVMe 是可用的最高效能,雖然某些選項可能具有每個裝置最快的吞吐量,但我們大型、非常密集的 QLC 陣列總的來說足以勝任這項任務。

消費者驅動器和 CPU 效能。不是記錄系統

y-cruncher 有一個內建基準測試,可讓您拉動所有槓桿並調整旋鈕,為磁碟陣列找到最佳效能設定。這是 重要的。上面的螢幕截圖顯示,基準測試為該消費系統提供了回饋,其中包含有關 CPU 處理速度和 SSD 效能的指標。

亞歷克斯有 一些廣泛的可用文檔,但總而言之,我們透過幾週的測試發現,讓 y-cruncher 直接與驅動器互動是最好的方法。我們測試了網路目標、SAS RAID 卡後面的磁碟機、NVMe RAID 卡和 iSCSI 目標。當硬體控制權交給 y-cruncher 時,效能會日夜兼程。 iSCSI 似乎也可以接受,但我們只測試了輸出文件,它可以利用「Direct IO」進行互動。交換模式 RAID 程式碼必須經過相對深思熟慮,我們可以從測試和與開發人員的對話中推斷出它可以在較低層級上與磁碟機配合使用。

61.44TB Solidigm 硬碟開始成為解決該領域許多難題的最佳答案。在我們的系統上執行基準測試,我們發現驅動器的讀取和寫入性能均符合規格。我們特別選擇了能夠盡可能接近最佳 2:1 驅動器與運算比的 Intel CPU。這是最佳比率,因此您不會浪費 CPU 時間來等待驅動器執行。隨著驅動技術變得越來越快,我們可以透過選擇更高核心數的 CPU 來進行更廣泛、更快速的運作。

「客製化」戴爾 PowerEdge R760 伺服器

俗話說,第三次才有魅力。這不是我們第一次用 Pi 打破記錄的牛仔競技表演;我們從前兩次迭代中吸取了教訓,建立了最好的 Pi 平台。我們的第一個構建利用了具有 2 個 NVMe 托架和三個內部 SSD 底座的 16U 伺服器。使用 30.72TB Solidigm P5316 SSD,我們包含了 y-cruncher 的交換存儲,但我們必須利用基於 HDD 的存儲伺服器來存儲輸出文件。這並不是最優的,尤其是在寫出階段的最後階段。我們的第二個平台使用相同的伺服器,並附加了外部 NVMe JBOF,這為我們提供了額外的 NVMe 托架,但代價是敏感的佈線和不平衡的效能。這兩個平台的缺點是在整個 y-cruncher 運行過程中都需要依賴外部硬件,但代價是增加功率和增加故障點。

對於這次運行,我們希望利用一台全直接 NVMe 單伺服器,並在一個金屬板屋頂下為我們的 y-cruncher 交換儲存和輸出儲存提供足夠的空間。配備 760 托架 NVMe Direct Drives 背板的 Dell PowerEdge R24。該平台利用內部 PCIe 交換器讓所有 NVMe 驅動器同時與伺服器通信,因此無需額外的硬體或 RAID 設備。然後,我們在實驗室環境中將多個 R760 的 PCIe 轉接卡配置拼湊在一起,在後部為我們提供了四個 PCIe 插槽,用於安裝額外的 U.2 NVMe SSD。另一個好處是從另一台 R760 上取下了更大的散熱器,為我們提供了盡可能多的渦輪增壓淨空。直接液體冷卻進入我們的實驗室晚了一個月,無法在本次運行中實施。

「StorageReview 實驗室團隊將 pi 計算為超過 202 兆位數,使用 5th Gen Intel Xeon 處理器強調了這些 CPU 的強大功能和效率。利用 5 增加的核心數量和先進的性能特性th Gen Xeon 處理器,這一里程碑為計算數學樹立了新的基準,並繼續為各種科學和工程工作負載的創新鋪平道路。 說過 Suzi Jewett,英特爾 5 任總經理th 新一代英特爾至強處理器產品

雖然從技術上講,您可以訂購與本次運行中使用的配置完全相同的戴爾配置,但這並不是他們現有的東西,需要拼湊在一起。 (也許 Michael 會運行一批限量版「Pi」R760,具有精確的配置、定製油漆和 SR 徽標。)

電源尺寸對於本次運作也至關重要。雖然大多數人會立即認為 CPU 消耗了大部分電量,但在屋頂下放置 28 個 NVMe SSD 會產生相當大的功耗影響。我們的構建利用了 2400W PSU,但事實證明,它幾乎無法工作。我們有過幾次接近臨界水平的電力消耗時刻,如果系統斷開一個電源連接,我們的電力就會不足。這件事很早就發生了。當CPU負載達到峰值時,功耗急劇上升,且系統增加了所有SSD的I/O活動。如果我們必須再次這樣做,2800W 型號將是首選。

性能規格

技術亮點

  • 計算的總位數:202,112,290,000,000
  • 二手硬件:Dell PowerEdge R760,配備 2 個 Intel Xeon 8592+ CPU、1TB DDR5 DRAM、28 個 Solidigm 61.44TB P5336
  • 軟件和算法:y-cruncher v0.8.3.9532-d2,Chudnovsky
  • 資料存儲:每個磁碟機寫入 3.76PB,82.7 個磁碟寫入 22PB 用於交換陣列
  • 計算時間: 100.673天

y-cruncher 遙測

  • 邏輯最大檢查點:305,175,690,291,376 (278 TiB)
  • 邏輯峰值磁盤使用:1,053,227,481,637,440 ( 958 TiB)
  • 邏輯磁碟位元組讀取:102,614,191,450,271,272 (91.1 PiB)
  • 寫入的邏輯磁碟位元組數:88,784,496,475,376,328 (78.9 PiB)
  • 開始日期: 6 年 16 月 09 日星期二 07:2024:XNUMX
  • 結束日期:20 年 05 月 43 日星期一 16:2024:XNUMX
  • Pi:7,272,017.696 秒,84.167 天
  • 總計算時間:8,698,188.428秒,100.673天
  • 開始到結束牆時間:8,944,449.095 秒,103.524 天

Pi 的已知最大數字是 2,位於 202,112,290,000,000(XNUMX 兆、XNUMX 億、XNUMX 億)位置。

更廣泛的含義

雖然將 pi 計算為如此大量的數字可能看起來是一個抽象的挑戰,但該專案期間開發的實際應用和技術具有深遠的影響。這些進步可以增強各種計算任務,從密碼學習到物理和工程中的複雜模擬。

最近 202 兆位數的 pi 計算突顯了儲存密度和總擁有成本 (TCO) 的顯著進步。我們的設定在單一 1.720U 機箱內實現了驚人的 2 PB NVMe SSD 儲存。這一密度代表了資料儲存能力的飛躍,特別是考慮到 CPU 和驅動器滿載時總功耗峰值僅為 2.4kW。

這種能源效率與傳統 HPC 創紀錄的運作形成鮮明對比,傳統 HPC 運作消耗的電力顯著增加,並產生過多的熱量。如果您需要擴展低容量共享儲存(與高密度本地儲存相比),那麼當您考慮橫向擴展儲存系統的額外節點時,功耗會呈指數級增加。熱管理至關重要,特別是對於小型資料中心和伺服器機櫃。冷卻傳統 HPC 記錄系統並非易事,需要資料中心冷卻器比單獨運作的設備消耗更多電力。透過最大限度地減少功耗和熱量輸出,我們的設置為小型企業提供了更永續和可管理的解決方案。作為獎勵,我們的大部分跑步都是在新鮮空氣冷卻下進行的。

為了正確看待這一點,想像一下那些使用網路共享儲存和未優化平台運行的人所面臨的挑戰。這些設定需要一台或多台資料中心冷水機組來控制溫度。在這些環境中,節省的每一瓦特都意味著更少的冷卻需求和更低的營運成本,使我們的高密度、低功耗方法成為理想的選擇。運行精益高效的平台以創紀錄運行的另一個關鍵好處是使用電池備份硬體保護整個設置。如前所述,您需要計算伺服器、交換、儲存伺服器、冷卻器和水泵的備用電池,以使其在一年中的大部分時間保持運作。

總體而言,這項破紀錄的成就展示了當前 HPC 技術的潛力,並強調了能源效率和熱管理在現代運算環境中的重要性。

確保準確性:Bailey-Borwein-Plouffe 公式

將 pi 計算到 202 兆位數字是一項艱鉅的任務,但確保這些數字的準確性同樣重要。這就是 Bailey-Borwein-Plouffe (BBP) 公式發揮作用的地方。

BBP 公式讓我們可以驗證 pi 的十六進位(基數 16)格式的二進位數字,而無需計算所有前面的數字。這對於交叉檢查我們大量計算的部分特別有用。

兩個驗證計算。

這是一個簡單的解釋:

  1. 十六進位輸出:在主要計算過程中,我們首先產生 pi 的十六進位數字。 BBP 公式可以直接計算以 16 為底的 pi 的任意單一數字。您可以使用 GPUPI 等其他程式來完成此操作,但 y-cruncher 也有內建功能。如果您喜歡開源方法, 這些公式是眾所周知的。
  2. 交叉驗證:我們可以透過使用 BBP 公式獨立計算 pi 的十六進位數字的特定位置來將這些結果與我們的主要計算進行比較。如果它們匹配,則強烈表明我們的整個序列是正確的。我們進行了六次以上的交叉檢查;這是其中兩個。

例如,如果我們的主要計算產生的十六進制數字與在各個點從 BBP 公式獲得的十六進制數字相同,我們就可以自信地斷言我們的數字的準確性。這種方法不僅僅是理論上的,而且是可行的。它已實際應用於所有重要的 pi 計算,確保結果的穩健性和可靠性。

R=正式運行結果,V=驗證結果

  • R: f3f7e2296 822ac6a8c9 7843dacfbc 1eeb4a5893 37088*
  • V: *3f7e2296 822ac6a8c9 7843dacfbc 1eeb4a5893 370888

精明的讀者會注意到,螢幕截圖的驗證和上面的比較有一點偏移(*)。雖然沒有必要,但由於十六進制在最後會受到影響,我們也抽查了其他一些位置(例如 100 兆和 105 兆數字)以確保運行匹配。雖然它是 理論上可以計算 pi 的任何小數位 使用類似的方法,目前尚不清楚其精確度是否會超過 100 億位數字,或者是否具有計算效率,而不是進行 Chudnovsky 數學計算並獲得所有數字。 (如果埃里克·韋斯坦看到這個,請伸出手;我想嘗試一下。)

透過整合此數學交叉檢查過程,我們可以確保破紀錄的 202 兆位元 pi 計算的完整性,展示我們的計算精度和對科學準確性的承諾。

前方的路

StorageReview 實驗室團隊將 pi 計算到超過 202 兆位數的成就證明了高效能運算和儲存技術的顯著進步。這項破紀錄的壯舉在我們的 Dell PowerEdge R8592 和 Solidigm 760TB QLC NVMe SSD 中採用了 Intel Xeon 61.44+ CPU,凸顯了現代硬體以前所未有的效率處理複雜和資源密集型任務的能力。該專案的成功不僅展示了 StorageReview 團隊的實力,還強調了當今 HPC 基礎設施突破計算數學和其他科學學科界限的潛力。

「這項新的 Pi 世界紀錄是一項令人興奮的成就,因為這種運算工作負載與我們今天看到的許多人工智慧工作負載一樣緊張。 Solidigm D5-P5336 61.44TB SSD 再次證明,超高容量、PCIe 4 飽和讀取性能和高 PB 寫入性能的強大組合,可以承受並釋放當今一些最苛刻的應用程式。 Greg Matson,Solidigm 資料中心儲存部門副總裁。 “我們很高興有機會與 Dell Technologies 的合作夥伴以及 StorageReview 的專家一起進行另一項破紀錄的計算 Pi 的嘗試。”

這項努力也為優化儲存密度和能源效率提供了寶貴的見解,為更永續和可管理的運算解決方案鋪平了道路。隨著我們不斷探索 HPC 的可能性,從該專案中汲取的經驗教訓無疑將推動未來的創新,使從密碼學到工程的各個領域受益。 StorageReview 實驗室團隊的成就是計算歷史上的里程碑,表明我們可以透過硬體和專業知識的正確組合達到科學發現和技術進步的新高度。

致謝

StorageReview 實驗室團隊感謝 Solidigm、Dell Technologies、Intel 和 y-cruncher Alex Yee 對這個專案的堅定支持和貢獻。

 

參與 StorageReview

電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱