Accueil Entreprise StorageReview a calculé 100 54 milliards de chiffres de Pi en XNUMX jours, surpassant Google Cloud

StorageReview a calculé 100 54 milliards de chiffres de Pi en XNUMX jours, surpassant Google Cloud

by Jordan Ranous
processeur amd génois nu

Pi représente le rapport de la circonférence d'un cercle à son diamètre, et il a un nombre infini de chiffres décimaux qui ne se répètent ni ne se terminent jamais. Le calcul de Pi infini n'est pas seulement une quête passionnante pour les mathématiciens ; c'est aussi un moyen de mettre la puissance de calcul et la capacité de stockage à l'épreuve de l'endurance ultime. Jusqu'à présent, Google's Cloud détenait le record du monde de la plus grande résolution Pi à 100 XNUMX milliards de chiffres. À ce jour, StorageReview a égalé leur nombre et l'a fait en une fraction du temps.

Pi représente le rapport de la circonférence d'un cercle à son diamètre, et il a un nombre infini de chiffres décimaux qui ne se répètent ni ne se terminent jamais. Le calcul de Pi infini n'est pas seulement une quête passionnante pour les mathématiciens ; c'est aussi un moyen de mettre la puissance de calcul et la capacité de stockage à l'épreuve de l'endurance ultime. Jusqu'à présent, Google's Cloud détenait le record du monde de la plus grande résolution Pi à 100 XNUMX milliards de chiffres. À ce jour, StorageReview a égalé leur nombre et l'a fait en une fraction du temps.

100 milliards de chiffres de Pi

Pi dans le ciel, au-dessus des nuages

L'année dernière, l'avocate des développeurs de Google Cloud, Emma Haruka Iwao, a annoncé qu'elle et son équipe avaient calculé Pi à 100 billions de chiffres, battant son précédent record de 31.4 billions de chiffres de 2019. Ils ont utilisé un programme appelé y-cruncher exécuté sur le moteur de calcul de Google Cloud, qui a pris environ 158 jours et traité environ 82 pétaoctets de données. En fin de compte, cette exécution aurait également eu une facture massive de calcul et de stockage dans le cloud, combinée à l'élan croissant des organisations pour ramener des charges de travail spécifiques sur site, ce qui nous a donné une idée intéressante…

Nous avons été impressionnés par la réussite d'Emma et de Google Cloud, mais nous nous sommes également demandé si nous pouvions le faire plus rapidement, avec un coût total inférieur. Chez StorageReview.com, nous avons accès à certains des matériels les plus récents et les plus performants du secteur, notamment Processeurs AMD EPYC de 4e génération, Solidigme SSD P5316et quantités obscènes de piles au lithium. Comme une allumette faite au paradis, nous avons construit un serveur hautes performances avec un peu moins de 600 To de mémoire flash QLC et une solution d'alimentation unique à haute disponibilité.

Voici les spécifications de notre système de calcul :

Bien que le matériel total puisse sembler extrême, le coût d'achat de notre matériel représente toujours une fraction de l'exécution de la même charge de travail dans le cloud pendant six mois.

Centre de données : conçu par des fous

L'une des premières questions qui s'est posée lors de la conception de notre plate-forme pour ce test était : "Comment allons-nous présenter un volume contigu suffisamment grand pour stocker un fichier texte avec 100 1 milliards de chiffres de Pi ?" citation que nous avons totalement dit). Le calcul est assez simple, 1 chiffre Pi = 100 octet, et avoir 100 billions de chiffres décimaux signifiait que nous avions besoin de 83 To pour cela et de 83 To supplémentaires pour les XNUMX billions de chiffres hexadécimaux qui seraient également calculés. Heureusement, c'est StorageReview, et s'il y a une chose que nous savons faire, c'est stocker beaucoup de données avec des quantités excessives de stress.

Malheureusement, même Kevin n'a pas (encore) de lecteur flash de 183 To sur son trousseau de clés de la taille d'un concierge. Ainsi, après avoir examiné et testé diverses méthodes dans le laboratoire et exploré plusieurs façons de mapper un NAS ou un partage de fichiers, nous avons remarqué lors des tests que y-cruncher aime avoir le contrôle direct des E/S des disques avec lesquels il travaille ; pas seulement les disques d'échange, mais aussi le répertoire de sortie du fichier. Donner à y-cruncher un volume auquel il peut envoyer des commandes SCSI était notre seule option, car il offre des performances optimales.

La seule chose logique à faire ensuite était donc d'utiliser une cible iSCSI pour Serveur de stockage Supermicro pour stocker les fichiers de sortie, qui étaient trop volumineux pour tenir sur un seul volume sur l'hôte de calcul local. Cette plate-forme était plus traditionnelle dans le sens d'un stockage haute capacité, hébergeant "seulement" 200 To sur quatre LUN de 50 To que nous avons répartis sur notre plate-forme de calcul.

Bien que RAID 0 puisse soulever quelques sourcils, pour notre défense, le stockage du serveur de fichiers a été découpé à partir d'un pool d'espaces de stockage Windows en miroir, de sorte que la redondance était disponible sur l'hôte distant. Il a ensuite été multi-chemin sur une interface 10G à double port, directement connecté et câblé entre les deux serveurs. La suppression d'un interrupteur de cette équation était intentionnelle, car cette plate-forme Pi a été conçue pour fonctionner entièrement séparément au cas où le laboratoire principal devait se déconnecter.

Bien que la protection de l'alimentation ne soit pas toujours une préoccupation majeure dans le laboratoire StorageReview, un projet de cette ampleur (s'étendant sur des mois) a exigé des mesures extrêmes pour garantir la disponibilité. Nous avons exploité trois Centrales électriques portables EcoFlow Delta Pro, chacun avec une capacité de sortie de 3600W et une batterie de 3600Wh.

Le serveur AMD Genoa en a exploité deux, avec un Eaton 5PX alimentation sans interruption en ligne entre un Delta Pro, pour atténuer le délai de commutation de l'EcoFlow lors d'une panne. Le serveur de fichiers avait un Delta Pro qui lui était dédié, avec un Eaton 5PX G2 pour les retards de transfert.

En bref, nous avons créé un onduleur sur stéroïdes, combinant les avantages des centrales électriques portables de grande capacité avec la fiabilité des équipements de batterie de secours modernes de qualité centre de données. Au pic de charge de calcul, nous avions une autonomie de 4 à 8 heures sur batterie. Nous avons eu de nombreuses tempêtes tout au long de la course 100T Pi, mais nous pouvions dormir facilement, sachant que la course Pi resterait opérationnelle.

Viande, pommes de terre et Pi. Beaucoup, beaucoup de pi…

Nous avons commencé le calcul le jeudi 9 février 17:40:47 2023 EST, et il s'est terminé le lundi 10 avril 05:27:37 2023 EST. Le temps de calcul Pi écoulé était de 54 jours, 17 heures, 35 minutes et 48.96 secondes, le temps total mur à mur, y compris l'écriture et la validation, étant de 59 jours, 10 heures, 46 minutes et 49.55 secondes.

La taille de stockage totale était de 530.1 To disponibles, sans compter la cible iSCSI de 200 To pour l'écriture. Voici quelques faits saillants des compteurs du fichier de validation y-cruncher, disponible pour téléchargement et vérification.

Les nombres

Date de début : jeu. 9 février 17:40:47 2023

Modèle de travail:

  • Constante : Pi
  • Algorithme : Chudnovsky (1988)
  • Chiffres décimaux : 100,000,000,000,000 XNUMX XNUMX XNUMX XNUMX
  • Chiffres hexadécimaux : 83,048,202,372,185 XNUMX XNUMX XNUMX XNUMX
  • Mémoire de travail : 1,512,978,804,672 1.38 XNUMX XNUMX XNUMX (XNUMX Tio)
  • Mémoire totale : 1,514,478,305,280 1.38 XNUMX XNUMX XNUMX (XNUMX Tio)

Compteurs de disques logiques :

  • Plus grand point de contrôle logique : 150,215,548,774,568 137 XNUMX XNUMX XNUMX (XNUMX Tio)
  • Utilisation maximale du disque logique : 514,540,112,731,728 468 XNUMX XNUMX XNUMX (XNUMX Tio)
  • Nombre total d'octets lus sur le disque logique : 40,187,439,132,182,512 35.7 XNUMX XNUMX XNUMX XNUMX (XNUMX PiB)
  • Nombre total d'octets écrits sur le disque logique : 35,439,733,386,707,040 31.5 XNUMX XNUMX XNUMX XNUMX (XNUMX PiB)

Les chiffres ne mentent pas :

  • Temps de calcul total : 4728948.966 secondes
  • Temps de mur du début à la fin : 5136409.559 secondes
  • Derniers chiffres décimaux :
    • 4658718895 1242883556 4671544483 9873493812 1206904813 : 99,999,999,999,950 XNUMX XNUMX XNUMX XNUMX
    • 2656719174 5255431487 2142102057 7077336434 3095295560 : 100,000,000,000,000 XNUMX XNUMX XNUMX XNUMX

Date de fin : lun. 10 avril 05:27:37 2023

Les dix chiffres de Pi menant à 100 trillions sont 3095295560.

Nous avons calculé Pi à 100 billions de chiffres en environ un tiers du temps, en partie grâce à tout l'espace de stockage d'échange local par rapport à la méthode de Google. Cela montre les performances, la densité et l'efficacité incroyables des SSD Solidigm P5316 QLC connectés localement et, bien sûr, des processeurs AMD EPYC de 4e génération.

Le stockage local faisait partie intégrante de cette course rapide. Alors que l'exécution de Google pouvait exploiter des quantités de stockage presque illimitées, elle était limitée à une interface réseau de 100 Go. Il est étrange de dire que 100 Go est lent, mais à l'échelle de notre test, cela devient un énorme goulot d'étranglement. Au cours de nos rafales d'écriture d'échange, nous avons mesuré des vitesses de transfert cumulées vers les SSD Solidigm P5316 QLC supérieures à 38 Go/s.

Les vitesses de lecture étaient encore plus élevées. En termes de réseau, vous auriez besoin de plusieurs liens de 400 Go (redondance) pour faire circuler cette quantité de données. Bien que cela ne soit pas impossible, de nombreux environnements cloud ne sont tout simplement pas conçus pour ce niveau de bande passante. Les instances d'E/S denses en métal nu d'Oracle sont probablement celles qui se rapprochent le plus de cette échelle de vitesse brute, mais celles-ci sont limitées à huit SSD NVMe et à 54.4 To de capacité combinée.

Solidigm QLC Flash pour la performance, l'endurance et la densité

Pour faciliter un calcul aussi important, nous avions besoin d'espace, et de beaucoup d'espace, aussi vite que nous pouvions le trouver. Le mode swap est une fonctionnalité de y-cruncher qui permet d'effectuer des calculs à l'aide du disque, ce qui est nécessaire pour effectuer des calculs volumineux qui ne peuvent pas tenir dans la mémoire principale. L'utilisation de plusieurs disques en parallèle est nécessaire pour de meilleures performances, et pour améliorer encore les performances, des disques SSD (Solid State Drives) peuvent être utilisés. Cependant, il n'a pas été recommandé dans le passé car l'analyse théorique de leur usure en écriture n'est pas encourageante.

L'utilisation du mode d'échange de y-cruncher, au lieu de s'appuyer sur le fichier d'échange du système d'exploitation, est essentielle car les modèles d'accès à la mémoire dans y-cruncher ne sont pas directement compatibles avec le disque. Heureusement, le mode d'échange de y-cruncher est conçu pour surmonter cette limitation en minimisant les recherches de disque et en utilisant des accès séquentiels au disque. y-crunchers Le mode Swap a été utilisé dans une configuration RAID 0 avec 19 disques, ce qui a donné à l'application un accès E/S direct aux disques NVMe pour des performances optimales.

Les SSD Solidigm P5316 que nous avons utilisés dans notre test utilisent une interface PCIe Gen4 et sont équipés d'une mémoire flash QLC NAND à 144 couches. Ils offrent des performances exceptionnelles, avec jusqu'à 7 Go/s de vitesse de lecture séquentielle et jusqu'à 3.6 Go/s de vitesse d'écriture séquentielle.

Les disques SSD QLC sont reconnus pour leur capacité à réduire les dépenses sans compromettre la capacité de stockage et les performances efficaces. Cela rend la technologie QLC SSD avantageuse pour de nombreuses situations professionnelles. Par exemple, VAST Data intègre ces disques dans ses produits pour éliminer la nécessité de disques durs. Dans le même temps, Pliops utilise une carte accélératrice avec des lecteurs QLC pour une résolution rapide et économique.

Nous avons ces disques dans notre laboratoire depuis fin 2021 et les avons soumis à de nombreux tests, mais ce fut l'un des tests les plus intensifs et les plus complets à ce jour. Sur les 19 disques que nous avons utilisés, tous étaient à 99-100% de santé au début du calcul.

Au cours des 54.5 jours d'exécution de ce calcul, nous avons eu un total de 33,127,095 1,742,500 29 Go d'écriture sur les disques, soit environ XNUMX XNUMX XNUMX Go par disque. En convertissant cela en un excédent quotidien sur notre exécution, cela représente un peu plus de XNUMX To par lecteur et par jour.

L'extrapolation pour une charge de travail simulée à plus long terme est d'environ 10.69 Po par an d'écritures de données par disque. Solidigm répertorie l'endurance du P5316 à 22.9 PBW pour les charges de travail aléatoires et à 104.6 PBW pour les charges de travail séquentielles. La charge de travail Pi restant en rafale pendant toute sa durée sans trop solliciter le flash, elle a agi de manière très séquentielle, plaçant la charge de travail vers l'extrémité supérieure du spectre d'endurance de Solidigm.

Cela signifie que vous pourriez les soumettre à une charge de travail similaire pendant près d'une décennie avant de manquer de vie. Impressionnant, c'est le moins qu'on puisse dire, étant donné qu'il s'agit de QLC NAND et que la garantie du lecteur est de cinq ans. Toute personne préoccupée par l'usure de ces disques peut utiliser ce cas d'utilisation comme un autre point de validation que QLC est prêt pour l'entreprise.

À la fin de l'exécution de 59.5 jours, l'état de santé signalé était de 97 à 98 % sur tous les disques du serveur. Nous avions à peine fait une brèche dans l'endurance de ces disques.

Processeurs épiques AMD EPYC

Les processeurs AMD EPYC de 4e génération sont basés sur la microarchitecture Zen 4 et le processus 5 nm, ce qui en fait les premiers processeurs de centre de données 5 nm x86 du secteur. Ils prennent en charge jusqu'à 12 canaux de mémoire DDR5, les instructions AVX-512 VNNI et BFloat16 pour des performances améliorées dans les applications AI et ML. Ils offrent jusqu'à 30 % de performances en plus par cœur que les processeurs Ice Lake d'Intel et jusqu'à deux fois plus de performances que les processeurs EPYC Milan de la génération précédente d'AMD.

processeur amd génois nu

Le réglage était une grande partie de cette course, car nous avions largement testé et itéré à travers des enregistrements de calculs Pi plus petits et précédemment détenus, comme 1 milliard et 10 milliards. Grâce à quelques ajustements avec le BIOS et à l'utilisation du temps d'exécution de 10 milliards comme métrique, nous avons pu obtenir des améliorations significatives des performances pour cette charge de travail. Cela nous a donné un avantage significatif par rapport à l'utilisation des ressources cloud puisque nous avions un contrôle granulaire sur la plate-forme pour l'optimiser pour notre application, ce qui n'est pas une option avec les instances cloud prêtes à l'emploi.

Nous avons commencé par désactiver SMT dans le BIOS et avons obtenu quelques % d'améliorations sur le temps d'exécution des tests plus petits. La prochaine option que nous avons explorée était C-States. Nous avons remarqué que lors de l'exécution de y-cruncher, le processeur avait tendance à entrer et sortir assez souvent des états-c de faible puissance, car il passait par différents processus.

Le réglage des paramètres du BIOS, y compris la désactivation de SMT et le contrôle des états C, combiné à quelques ajustements des performances du système d'exploitation, a été un facteur crucial dans l'amélioration des performances pour cette charge de travail. Un grand bravo à Alexander Yee de y-Cruncher et à un ami de la scène de l'overclocking, Forks, pour avoir aidé à souligner quelques ajustements et paramètres dans Windows et y-Cruncher pour aider à faire en sorte que cette course se déroule.

Pi; Course de vitesse 100T, 100 %. Maintenant quoi?

Eh bien, les amis, alors que nous terminons ce Pi-lgrimage, prenons un moment pour nous prélasser dans la gloire du calcul de 100 54 milliards de chiffres de Pi en seulement 4 jours ! Grâce au programme y-cruncher, à la force herculéenne des processeurs AMD EPYC de 5316e génération et aux SSD Solidigm PXNUMX QLC ultra-rapides, nous avons assisté à une réalisation qui fera rougir votre calculatrice.

Repoussant les limites de la puissance informatique brute et du stockage de données de taille océanique, notre fidèle équipe d'unités de stockage flash QLC connectées localement a vraiment eu le temps de briller. Les SSD Solidigm P5316, avec leur endurance et leurs performances exceptionnelles, sont comme les acolytes super-héros du monde des affaires. Et n'oublions pas nos centrales électriques portables et notre équipement de batterie de secours costaud, garantissant que notre Pi-rade continue de rouler, même lorsque Mère Nature a essayé de faire pleuvoir sur notre célébration parfaitement cuite.

Alors, alors que nous disons adieu à cette extravagance Pi record, levons une tranche aux possibilités infinies dans les mondes des mathématiques et de l'informatique qui nous attendent. Acclamations!

Visitez Solidigm

S'engager avec StorageReview

Infolettre |  YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Flux RSS