ホーム Enterprise StorageReview が 100 日間で 54 兆桁の円周率を計算し、Google Cloud を上回りました

StorageReview が 100 日間で 54 兆桁の円周率を計算し、Google Cloud を上回りました

by ジョーダン・ラナス
amd genoa ベア CPU

円周率は円の円周と直径の比率を表し、繰り返されたり終了したりすることのない無限の数の 100 進数を持ちます。無限円周率の計算は、数学者にとって単なるスリリングな探求ではありません。これは、コンピューティング能力とストレージ容量を究極の耐久性テストにかける方法でもあります。これまで、Google のクラウドは、XNUMX 兆桁の最大の円周率解析の世界記録を保持してきました。本日の時点で、StorageReview はその数をわずかな時間で照合し、照合を完了しました。

円周率は円の円周と直径の比率を表し、繰り返されたり終了したりすることのない無限の数の 100 進数を持ちます。無限円周率の計算は、数学者にとって単なるスリリングな探求ではありません。これは、コンピューティング能力とストレージ容量を究極の耐久性テストにかける方法でもあります。これまで、Google のクラウドは、XNUMX 兆桁の最大の円周率解析の世界記録を保持してきました。本日の時点で、StorageReview はその数をわずかな時間で照合し、照合を完了しました。

100 兆桁の円周率

空の円周率、雲の上の円周率

昨年、Google Cloud デベロッパー アドボケートのエマ・ハルカ・イワオ氏は、彼女と彼女のチームが円周率を 100 兆桁まで計算し、31.4 年の 2019 兆 158 億桁という彼女のこれまでの記録を破ったと発表しました。彼らは、Google Cloud の Compute Engine で実行される y-cruncher と呼ばれるプログラムを使用しました。完了までに約 82 日かかり、約 XNUMX ペタバイトのデータが処理されました。最終的には、組織が特定のワークロードをオンプレミスに戻す機運が高まっていることと相まって、その実行により膨大なクラウド コンピューティングとストレージの請求書が発生することになるため、興味深いアイデアが得られました…

私たちは Emma と Google Cloud の成果に感銘を受けましたが、総コストをより低く抑えて、より迅速に実現できないかという疑問も抱いていました。 StorageReview.com では、次のような業界の最新かつ最高のハードウェアにアクセスできます。 AMD EPYC 第 4 世代プロセッサ、ソリッドディグム P5316 SSD, 法外な量のリチウム電池。まさに天国での試合のように、私たちは 600 TB 弱の QLC フラッシュと独自の高可用性電源ソリューションを備えた高性能サーバーを構築しました。

私たちのコンピューティング システムの仕様は次のとおりです。

  • 2 x AMD EPYC 9654 (96 コア、2.4 GHz、3.7 GHz ブースト)
  • 24 x 64GB DDR5-4800 DIMM、合計 1.5TB
  • 19 x Solidigm 30.72TB QLC P5316 SSD
  • Windows Server 2022 Standard 21H2
  • プログラム: yクランチャー アレクサンダー・イー著

ハードウェアの総量は膨大に見えるかもしれませんが、ハードウェアを完全に購入するコストは、クラウドで同じワークロードを 6 か月間実行するコストのほんの一部です。

データセンター: Madmen による設計

このテスト用のリグを設計していたときに最初に浮かんだ疑問の 100 つは、「円周率 1 兆桁のテキスト ファイルを保存するのに十分な大きさの連続したボリュームをどのように表示するか?」というものでした (これは間違いなく直接的な問題です)。私たちが完全に言ったことを引用します)。計算は非常に簡単で、1 Pi 桁 = 100 バイトです。100 進数が 83 兆あるということは、それには 83 TB が必要であり、同様に計算される XNUMX 兆の XNUMX 進数にはさらに XNUMX TB が必要であることを意味します。ありがたいことに、これは StorageReview です。私たちが知っている方法が XNUMX つあるとすれば、それは過剰な負荷をかけて大量のデータを保存することです。

残念ながら、Kevin でさえ、管理人サイズのフラッシュ ドライブのキーホルダーに 183 TB のフラッシュ ドライブを (まだ) 搭載していません。そのため、ラボ内でさまざまな方法を調べてテストし、NAS またはファイル共有をマッピングする複数の方法を検討した結果、y-cruncher は動作しているディスクを Direct IO 制御することを好むことに気づきました。スワップディスクだけでなく、ファイル出力ディレクトリも同様です。最適なパフォーマンスが得られるため、y-cruncher に SCSI コマンドを送信できるボリュームを与えることが唯一の選択肢でした。

したがって、次に行うべき唯一の論理的なことは、iSCSI ターゲットを使用して、 Supermicro ストレージ サーバー 出力ファイルを保存します。出力ファイルは大きすぎて、ローカル コンピューティング ホスト上の単一ボリュームに収まりません。このプラットフォームは、大容量ストレージという意味ではより伝統的で、コンピューティング プラットフォーム上にストライピングした 200 つの 50 TB LUN 全体で「わずか」 XNUMX TB をホストしていました。

RAID 0 というと眉をひそめる人もいるかもしれませんが、私たちが弁護すると、ファイル サーバーのストレージはミラーリングされた Windows 記憶域スペース プールから切り出されたものであるため、リモート ホストで冗長性が利用可能でした。その後、デュアルポート 10G インターフェイスを介してマルチパス化され、直接接続され、両方のサーバー間に配線されました。この方程式からスイッチを削除したのは意図的でした。この Pi プラットフォームは、メイン ラボがオフラインになった場合に備えて完全に個別に動作するように設計されていたからです。

StorageReview ラボでは電源保護は必ずしも大きな懸念事項ではありませんが、この規模のプロジェクト (数か月にわたる) では、稼働時間を確保するために極端な対策が必要でした。 3つを活用しました EcoFlow Delta Pro ポータブル発電所、それぞれ3600Wの出力容量と3600Whのバッテリーを搭載しています。

AMD Genoa サーバーは 2 つを活用し、1 つは イートン 5PX 1 台の Delta Pro 間にインラインの無停電電源装置を接続し、停電時の EcoFlow からの切り替え遅延を軽減します。ファイルサーバーには専用の Delta Pro が 1 つあり、 イートン 5PX G2 転送遅延の場合。

つまり、私たちは、大容量のポータブル発電所の利点と最新のデータセンターグレードのバッテリーバックアップ装置の信頼性を組み合わせた、強力な UPS を作成しました。コンピューティング負荷がピークに達したとき、バッテリーでの実行時間は 4 ~ 8 時間でした。 100T Pi の実行中に何度も嵐に見舞われましたが、Pi の実行は継続できるとわかっていたので、簡単に眠ることができました。

肉、ジャガイモ、パイ。たくさんのパイ…

計算は 9 年 17 月 40 日木 47:2023:10 EST に開始され、05 年 27 月 37 日月曜日 2023:54:17 EST に終了しました。 Pi 計算の経過時間は 35 日 48.96 時間 59 分 10 秒で、書き込みと検証を含むウォールツーウォールの合計時間は 46 日 49.55 時間 XNUMX 分 XNUMX 秒でした。

合計ストレージ サイズは、書き込み用の 530.1 TB iSCSI ターゲットを除いて、200 TB が利用可能でした。ここでは、y-cruncher 検証ファイルのカウンターのハイライトをいくつか示します。 ダウンロードと検証が可能です.

Entrupy

開始日: 9 年 17 月 40 日(木) 47:2023:XNUMX

作業モデル:

  • 定数: 円周率
  • アルゴリズム: Chudnovsky (1988)
  • 小数桁: 100,000,000,000,000
  • 83,048,202,372,185 進数: XNUMX
  • ワーキングメモリ: 1,512,978,804,672 (1.38 TiB)
  • 合計メモリ: 1,514,478,305,280 (1.38 TiB)

論理ディスクカウンター:

  • 論理最大チェックポイント: 150,215,548,774,568 ( 137 TiB)
  • 論理ピークディスク使用量: 514,540,112,731,728 (468 TiB)
  • 論理ディスクの合計読み取りバイト数: 40,187,439,132,182,512 (35.7 PiB)
  • 論理ディスクの総書き込みバイト数: 35,439,733,386,707,040 (31.5 PiB)

数字は嘘をつきません:

  • 合計計算時間: 4728948.966 秒
  • 開始から終了までのウォールタイム: 5136409.559 秒
  • 小数点以下の最後の桁:
    • 4658718895 1242883556 4671544483 9873493812 1206904813: 99,999,999,999,950
    • 2656719174 5255431487 2142102057 7077336434 3095295560: 100,000,000,000,000

終了日: 10 年 05 月 27 日月曜日 37:2023:XNUMX

100 兆までの円周率の 3095295560 桁は XNUMX です。

Google の方法と比較して、すべてのローカル スワップ ストレージ スペースのおかげで、円周率を約 100 分の 5316 の時間で 4 兆桁まで計算できました。これは、ローカルに接続された Solidigm PXNUMX QLC SSD、そしてもちろん AMD EPYC 第 XNUMX 世代プロセッサの驚異的なパフォーマンス、密度、効率を示しています。

この高速化にはローカル ストレージが不可欠でした。 Google の実行ではほぼ無制限のストレージを利用できましたが、ネットワーク インターフェースは 100Gb に制限されていました。 100Gb が遅いというのは奇妙ですが、テストの規模では、それが大きなボトルネックになります。スワップ書き込みバースト中に、Solidigm P5316 QLC SSD への累積転送速度が 38GB/秒を超えることを測定しました。

読み取り速度はさらに高速になりました。ネットワークの観点から言えば、その量のデータを流すには複数の 400Gb リンク (冗長性) が必要になります。不可能ではありませんが、多くのクラウド環境はそのレベルの帯域幅を考慮して構築されていません。 Oracle のベアメタル Dense I/O インスタンスは、おそらくこのスケールの生の速度に最も近いものですが、54.4 つの NVMe SSD と合計 XNUMX TB の容量に制限されています。

パフォーマンス、耐久性、密度を実現する Solidigm QLC フラッシュ

このような重要な計算を容易にするためには、できるだけ多くのスペースをできるだけ早く見つける必要がありました。スワップ モードは、ディスクを使用して計算を実行できるようにする y-cruncher の機能です。これは、メイン メモリに収まらない大規模な計算を実行するために必要です。パフォーマンスを向上させるには複数のドライブを並行して使用する必要があり、パフォーマンスをさらに向上させるためにソリッド ステート ドライブ (SSD) を使用できます。ただし、書き込み摩耗の理論的分析が望ましいものではないため、これまでは推奨されていませんでした。

y-cruncher のメモリ アクセス パターンは直接ディスクに適したものではないため、OS ページファイルに依存する代わりに y-cruncher のスワップ モードを使用することが不可欠です。ありがたいことに、y-cruncher のスワップ モードは、ディスク シークを最小限に抑え、シーケンシャル ディスク アクセスを使用することで、この制限を克服するように設計されています。 y-crunchers スワップ モードは、0 台のドライブを備えた RAID 19 構成で使用され、アプリケーションに NVMe ディスクへの直接 IO アクセスを提供し、最適なパフォーマンスを実現しました。

テストで使用した Solidigm P5316 SSD は、PCIe Gen4 インターフェイスを利用し、144 層 QLC NAND フラッシュ メモリを搭載しています。最大 7 GB/秒のシーケンシャル読み取り速度と最大 3.6 GB/秒のシーケンシャル書き込み速度という優れたパフォーマンスを提供します。

QLC ソリッド ステート ドライブは、ストレージ容量と効率的なパフォーマンスを損なうことなく経費を削減できる機能が認められています。これにより、QLC SSD テクノロジーは多くのビジネス状況に有益になります。たとえば、VAST Data はこれらのドライブを製品に組み込んで、ハードディスク ドライブの必要性を排除しています。同時に、Pliops は QLC ドライブを備えたアクセラレータ カードを採用し、迅速かつコスト効率の高い解決を実現します。

私たちは 2021 年末からこれらのドライブを研究室に設置し、多くのテストを実施しましたが、これはこれまでで最も集中的かつ広範なテストの 19 つでした。使用した 99 台のドライブのうち、計算開始時点ではすべてのドライブの健全性が 100 ~ XNUMX% でした。

この計算を実行した 54.5 日間で、合計 33,127,095 GB、つまりドライブあたり約 1,742,500 GB がドライブに書き込まれました。これを実行中の 29 日あたりの超過量に換算すると、XNUMX 日あたりドライブあたり XNUMX TB をわずかに超えることになります。

シミュレートされた長期ワークロードを推定すると、ドライブごとの年間データ書き込み量は約 10.69PB になります。 Solidigm は、ランダム ワークロードの場合は 5316PBW、シーケンシャル ワークロードの場合は 22.9PBW という P104.6 の耐久性をリストしています。 Pi ワークロードは、フラッシュに大きなストレスを与えることなく、継続中バースト状態を維持するため、非常に逐次的に動作し、ワークロードを Solidigm の耐久性スペクトルの上限に近づけました。

これは、寿命が尽きるまでに、ほぼ 10 年間、同様のワークロードにさらされる可能性があることを意味します。これが QLC NAND であり、ドライブの保証が 5 年であることを考えると、控えめに言っても感心します。これらのドライブの消耗を懸念している人は誰でも、QLC がエンタープライズ対応であることの別の検証ポイントとしてこの使用例を使用できます。

59.5 日間の実行の終了時点で、サーバー内のすべてのドライブの健全性ステータスが 97 ~ 98% であると報告されました。これらのドライブの耐久性はかろうじて低下していました。

エピック AMD EPYC CPU

AMD EPYC 第 4 世代プロセッサは、Zen 4 マイクロアーキテクチャと 5nm プロセスに基づいており、業界初の 5nm x86 データセンター プロセッサです。最大 12 チャネルの DDR5 メモリ、AVX-512 VNNI、および BFloat16 命令をサポートし、AI および ML アプリケーションのパフォーマンスを向上させます。これらは、Intel の Ice Lake プロセッサよりもコアあたり最大 30% 高いパフォーマンスを提供し、AMD の前世代の EPYC Milan プロセッサよりも最大 XNUMX 倍のパフォーマンスを提供します。

amd genoa ベア CPU

1 億や 10 億など、以前に保持されていた小規模な円周率計算の記録を徹底的にテストして反復したため、この実行ではチューニングが大きな部分を占めました。 BIOS を調整し、10 億ランタイムを指標として使用することで、このワークロードのパフォーマンスを大幅に向上させることができました。これにより、プラットフォームをきめ細かく制御してアプリケーションに合わせて最適化できるため、クラウド リソースを利用する場合に比べて大きな利点が得られました。これは、既製のクラウド インスタンスでは不可能な選択肢です。

BIOS で SMT を無効にすることから始め、小規模なテストの実行時間で数%の改善を確認しました。私たちが検討した次のオプションは C-States でした。 y-cruncher を実行すると、CPU がさまざまなプロセスを経由するため、低電力の C ステートに頻繁に出入りする傾向があることに気づきました。

SMT の無効化や C ステートの制御などの BIOS 設定の調整と、オペレーティング システムのパフォーマンスの調整を組み合わせることが、このワークロードのパフォーマンスを向上させる上で重要な要素でした。この実行を実現するために Windows と y-Cruncher の両方でいくつかの微調整と設定を指摘するのを手伝ってくれた y-Cruncher の Alexander Yee と、オーバークロック シーンの友人である Forks に心から感謝します。

円周率100T スピードラン、100%。それで?

さて、皆さん、この巡礼の旅を終えるにあたり、わずか 100 日で 54 兆桁もの円周率を計算する栄光を満喫しましょう。 y-cruncher プログラム、AMD EPYC 第 4 世代プロセッサーの驚異的な強度、そして超高速 Solidigm P5316 QLC SSD のおかげで、私たちは電卓が赤面するような成果を目の当たりにしました。

生のコンピューターの能力と海洋サイズのデータ​​ ストレージの限界を押し広げ、ローカルに接続された QLC フラッシュ ストレージ ユニットからなる当社の信頼できるチームは、真の輝きを放ちました。 Solidigm P5316 SSD は、その並外れた耐久性とパフォーマンスを備えており、ビジネス界のスーパーヒーローの相棒のようなものです。そして、母なる自然が私たちの完璧に焼き上げたお祝いに雨を降らせようとしたときでも、私たちのパイレードが確実に動き続けることを保証するポータブル発電所と頑丈なバッテリーバックアップギアを忘れないでください。

さて、この記録破りの円周率の祭典に別れを告げるにあたって、これから待ち受ける数学とコンピューター サイエンスの世界の無限の可能性に一片をあげてみましょう。乾杯!

Solidigm を訪問

StorageReview と連携する

ニュースレター | YouTube |ポッドキャスト iTunes/Spotifyは | Instagram | Twitter | TikTok | RSSフィード