Inicio Empresa StorageReview Lab bate el récord mundial de cálculo de Pi con más de 202 billones de dígitos

StorageReview Lab bate el récord mundial de cálculo de Pi con más de 202 billones de dígitos

by Jordan Ranous

En una asombrosa demostración de destreza computacional, el equipo del laboratorio StorageReview ha establecido un récord mundial consecutivo al calcular pi con la increíble cifra de 202,112,290,000,000 dígitos. Este notable logro eclipsa el récord anterior de 105 billones de dígitos, que también ostentaba el equipo. Muestra las capacidades incomparables de la informática moderna de alto rendimiento y las plataformas de hardware básicas diseñadas adecuadamente.

En una asombrosa demostración de destreza computacional, el equipo del laboratorio StorageReview ha establecido un récord mundial consecutivo al calcular pi con la increíble cifra de 202,112,290,000,000 dígitos. Este notable logro eclipsa el récord anterior de 105 billones de dígitos, que también ostentaba el equipo. Muestra las capacidades incomparables de la informática moderna de alto rendimiento y las plataformas de hardware básicas diseñadas adecuadamente.

Hazaña computacional sin precedentes

El equipo del laboratorio StorageReview utilizó una configuración muy avanzada para lograr esta hazaña. Aprovechando las CPU Intel Xeon 8592+ y Solidigmo P5336 61.44 TB NVMe, el equipo realizó un cálculo casi continuo durante 85 días, consumiendo casi 1.5 petabytes de espacio en 28 SSD Solidigm. Este proyecto innovador demuestra avances significativos tanto en potencia como en eficiencia computacional.

"Este nuevo récord resalta el extraordinario potencial de la infraestructura informática de alto rendimiento actual", afirmó Jordan Ranous, arquitecto de sistemas del equipo de laboratorio StorageReview. "Al lograr este hito, no sólo estamos estableciendo nuevos puntos de referencia en matemáticas computacionales, sino que también estamos allanando el camino para futuras innovaciones en diversas disciplinas científicas y de ingeniería".

En marzo de 2024, el equipo del laboratorio StorageReview logró un récord mundial al calcular pi para 105 billones de dígitos. Utilizando un sistema AMD EPYC de doble procesador con 256 núcleos y casi un petabyte de SSD Solidigm QLC, el equipo abordó importantes desafíos técnicos, incluidas limitaciones de memoria y almacenamiento. Este hito demostró las capacidades del hardware moderno y proporcionó información valiosa para optimizar los sistemas informáticos de alto rendimiento.

"Las unidades Solidigm y Dell PowerEdge R760 no solo trabajaron juntas a la perfección, sino que la naturaleza casi sin intervención de este nuevo récord fue un cambio bienvenido después de los peligros de nuestro último intento de récord", dijo Kevin O'Brien, director del laboratorio StorageReview. "Después de lo que pasamos en la última prueba hasta 105, me alegro de haber elegido la plataforma que elegimos para el gran récord", continuó. Para obtener más detalles sobre el intento anterior de 105 billones de dígitos y los desafíos, puede leer el artículo completo. aquí.

Lección de CompSci y Matemáticas

Cuando empezamos a buscar formas divertidas de probar SSD de gran capacidad, la respuesta obvia estaba en nuestras revisiones de CPU y sistemas: y-cruncher. Cuando se utiliza espacio de intercambio para cálculos extensos, el requisito de espacio es aproximadamente 4.7:1 en los dígitos, por lo que 100 billones de dígitos necesitan alrededor de 470 TiB de espacio. Sin profundizar demasiado en los temas matemáticos e informáticos, y-cruncher, el algoritmo de Chudnovsky, se basa en una serie rápidamente convergente derivada de la teoría de funciones modulares y curvas elípticas. El núcleo del algoritmo se basa en las siguientes series infinitas:

La pregunta número uno que recibimos con respecto a nuestros cálculos de 100T y 105T fue: “Está bien, no es gran cosa. ¿Por qué esto lleva tanto tiempo y necesita tanta memoria? Esta pregunta se encontraba entre otras preocupaciones molestas sobre el código abierto y las capacidades de programación de Alex Yee. Demos un paso atrás y miremos esto desde el nivel del sistema.

Calcular una gran cantidad de dígitos de Pi, como 100 billones, requiere un espacio considerable debido a las grandes operaciones aritméticas involucradas. El desafío radica principalmente en multiplicar números grandes, lo que inherentemente requiere una memoria significativa. Por ejemplo, los mejores algoritmos para multiplicar números de N dígitos necesitan aproximadamente 4N bytes de memoria, la mayoría de los cuales sirven como espacio temporal. Se debe acceder a esta memoria varias veces durante el cálculo, lo que convierte el proceso en una tarea intensiva de E/S de disco en lugar de una tarea vinculada a la CPU.

La fórmula de Chudnovsky, ampliamente utilizada para calcular muchos dígitos de Pi, exige operaciones aritméticas extensas. Estas operaciones de multiplicación, división y elevación al cuadrado a menudo se reducen a grandes multiplicaciones. Históricamente, los superordenadores utilizaban algoritmos AGM que, a pesar de ser más lentos, eran más fáciles de implementar y se beneficiaban de la fuerza bruta de numerosas máquinas. Sin embargo, los avances modernos han desplazado el cuello de botella de la potencia computacional a las velocidades de acceso a la memoria.

Las unidades aritméticas lógicas (ALU) y las unidades de punto flotante (FPU) del procesador manejan estos grandes números de multiplicación de manera similar a la multiplicación manual en papel, dividiéndolos en operaciones más pequeñas y manejables. Anteriormente, los cálculos de Pi estaban vinculados a la computación, pero la potencia computacional actual supera las velocidades de acceso a la memoria, lo que hace que el almacenamiento y la confiabilidad sean factores críticos para establecer registros de Pi. Por ejemplo, se observó poca diferencia de rendimiento entre nuestra máquina Intel de 128 núcleos y una AMD Bergamo de 256 núcleos; la atención se centró en la eficiencia de E/S del disco.

Los SSD Solidigm desempeñan un papel crucial en estos cálculos, no por su velocidad inherente sino por su excepcional densidad de almacenamiento. Las unidades NVMe de consumo pueden almacenar hasta 4 TB en un volumen pequeño, mientras que las SSD empresariales apilan estos chips para obtener una capacidad aún mayor. Aunque QLC NAND puede ser más lento que otros tipos de memoria flash, el paralelismo en estos SSD densos ofrece un mayor ancho de banda agregado, lo que los hace ideales para cálculos Pi a gran escala.

SSD Solidigm QLC NVMe, permitiendo la locura

Bien, si todavía estás despierto y conmigo aquí, todo lo que necesitas saber es que cuando los números computacionales son demasiado grandes para caber en la memoria, las computadoras deben usar algoritmos de software para aritmética de precisión múltiple. Estos algoritmos descomponen los números grandes en partes manejables y realizan la división utilizando técnicas especiales. Aquí es donde el Solidigmo P5336 Vienen SSD NVMe de 61.44 TB. Y-cruncher toma estos fragmentos manejables, primero los acumula en la memoria del sistema y luego los intercambia en un espacio de almacenamiento temporal.

Recuerde, necesitamos alrededor de 4.7:1 para el intercambio, ya que cada parte de esa aterradora fórmula tiene que estar representada por muchos, muchos bits.

y-cruncher tiene un estimador incorporado para la cantidad de espacio en disco necesario (aún etiquetado disco*tos*) que encontramos que es perfectamente preciso en esta y en ejecuciones anteriores.

Si bien se pueden colocar algunos discos duros o algún objeto de almacenamiento, el tamaño bruto es solo una parte de una ecuación muy compleja, como descubrimos. en nuestra primera ronda. La capacidad de obtener un almacenamiento lo suficientemente grande y rápido cerca del dispositivo informático es un tema recurrente en nuestra vida en StorageReview en estos días con el auge de la IA. El rendimiento del espacio de intercambio es el mayor cuello de botella en este cálculo. NVMe de conexión directa es el rendimiento más alto disponible y, si bien algunas opciones pueden tener el rendimiento más rápido por dispositivo, nuestra gran y densa gama de QLC, en conjunto, estuvo más que a la altura de la tarea.

Rendimiento de la unidad de consumo y de la CPU. NO el sistema de registro

y-cruncher tiene un punto de referencia incorporado que le permite tirar de todas las palancas y ajustar las perillas para encontrar la mejor configuración de rendimiento para su conjunto de discos. Esto es extremely importante. La captura de pantalla anterior muestra que el punto de referencia proporciona comentarios para este sistema de consumo, con métricas sobre qué tan rápido puede funcionar la CPU y el rendimiento del SSD.

Alex tiene Alguna documentación extensa disponible, pero para resumirlo todo, descubrimos después de semanas de pruebas que simplemente dejar que y-cruncher interactúe con las unidades directamente es la mejor manera de hacerlo. Hemos probado objetivos de red, unidades detrás de una tarjeta RAID SAS, tarjetas RAID NVMe y objetivos iSCSI. Al darle el control del hardware a y-cruncher, el rendimiento es día y noche. iSCSI también parece aceptable, pero solo lo probamos para el archivo de salida, que puede utilizar "Direct IO" para esa interacción. El código RAID del modo swap debe estar relativamente bien pensado y podemos deducir de nuestras pruebas y conversación con el desarrollador que funciona con las unidades a un nivel bajo.

Las unidades Solidigm de 61.44 TB están empezando a surgir como la mejor respuesta a muchos problemas en ese espacio. Al ejecutar el punto de referencia en nuestro sistema, vemos que las unidades funcionan según las especificaciones tanto para lectura como para escritura. Seleccionamos específicamente las CPU Intel para poder estar lo más cerca posible de la relación óptima entre unidad y computación de 2:1. Esta es la proporción óptima, por lo que no pierde tiempo en la CPU esperando que las unidades funcionen. A medida que la tecnología de unidades se vuelve más rápida, podemos realizar ejecuciones más extensas y rápidas seleccionando CPU con mayor número de núcleos.

Servidor Dell PowerEdge R760 “personalizado”

Como dice el refrán, la tercera es la vencida. Este no es nuestro primer rodeo en el que batimos récords con Pi; Tomamos lecciones de nuestras dos primeras iteraciones para construir la mejor plataforma Pi. Nuestra primera compilación aprovechó un servidor de 2U con 16 bahías NVMe y tres sleds SSD internos. Con SSD Solidigm P30.72 de 5316 TB, contábamos con el almacenamiento de intercambio para y-cruncher, pero tuvimos que aprovechar un servidor de almacenamiento basado en HDD para el archivo de salida. Fue menos que óptimo, especialmente al final de la fase de cancelación. Nuestra segunda plataforma utilizó el mismo servidor, con un NVMe JBOF externo conectado, lo que nos proporcionó una bahía NVMe adicional, pero a costa de un cableado sensible y un rendimiento desequilibrado. La desventaja de ambas plataformas era la necesidad de depender de hardware externo durante toda la ejecución del Y-cruncher a costa de energía adicional y puntos de falla adicionales.

Para esta ejecución, queríamos aprovechar un único servidor NVMe totalmente directo y tener suficiente espacio para nuestro almacenamiento de intercambio y almacenamiento de salida bajo un mismo techo de chapa metálica. Ingrese el Dell PowerEdge R760 con el backplane de unidades directas NVMe de 24 bahías. Esta plataforma aprovecha un conmutador PCIe interno para que todas las unidades NVMe se comuniquen con el servidor simultáneamente, evitando cualquier necesidad de hardware adicional o dispositivos RAID. Luego, armamos una configuración vertical PCIe a partir de múltiples R760 en nuestro entorno de laboratorio, lo que nos brindó cuatro ranuras PCIe en la parte posterior para SSD NVMe montadas en U.2 adicionales. Una ventaja fue quitar disipadores de calor más grandes de otro R760, dándonos el mayor espacio libre posible para el turbo. La refrigeración líquida directa llegó a nuestro laboratorio con un mes de retraso para implementarla en esta ejecución.

“El cálculo de pi del equipo de StorageReview Lab con más de 202 billones de dígitos, logrado utilizando 5th El procesador Gen Intel Xeon subraya la potencia y la eficiencia de estas CPU. Aprovechando el mayor número de núcleos y las funciones avanzadas de rendimiento de los 5th Procesador Gen Xeon, este hito establece un nuevo punto de referencia en matemáticas computacionales y continúa allanando el camino para innovaciones en diversas cargas de trabajo científicas y de ingeniería”. dijo Suzi Jewett, directora general de Intel para 5th Productos de procesador Intel Xeon de generación

Si bien técnicamente se podía solicitar una configuración de Dell exactamente como la utilizada en esta ejecución, no era algo que tuvieran por ahí y necesitaran reconstruir. (Tal vez Michael ejecute un lote “Pi” de edición limitada de R760 con esta configuración exacta, pintura personalizada y el logotipo SR).

El tamaño de la fuente de alimentación también fue fundamental para esta ejecución. Si bien la mayoría pensaría inmediatamente que las CPU consumen la mayor parte de la energía, tener 28 SSD NVMe bajo un mismo techo tiene un impacto energético considerable. Nuestra construcción aprovechó las fuentes de alimentación de 2400 W, que, como resultó, apenas funcionaron. Tuvimos algunos momentos de consumo de energía de nivel casi crítico en los que no habríamos tenido suficiente energía si el sistema hubiera perdido una conexión de suministro de energía. Esto llegó desde el principio; El consumo de energía se disparó mientras las cargas de la CPU alcanzaban su punto máximo y el sistema aumentó la actividad de E/S en todos los SSD. Si tuviéramos que hacer esto de nuevo, se habrían preferido los modelos de 2800W.

Especificaciones de la precisión

Aspectos técnicos destacados

  • Total de dígitos calculados: 202,112,290,000,000
  • Hardware utilizado: Dell PowerEdge R760 con 2 CPU Intel Xeon 8592+, DRAM DDR1 de 5 TB, 28 Solidigm 61.44 TB P5336
  • Software y algoritmos: y-cruncher v0.8.3.9532-d2, Chudnovsky
  • Almacenamiento de datos: 3.76 PB escritos por unidad, 82.7 PB en los 22 discos para la matriz de intercambio
  • Duración del cálculo: 100.673 dias

Telemetría y-cruncher

  • Punto de control lógico más grande: 305,175,690,291,376 278 XNUMX XNUMX XNUMX (XNUMX TiB)
  • Uso máximo de disco lógico: 1,053,227,481,637,440 958 XNUMX XNUMX XNUMX (XNUMX TiB)
  • Bytes de disco lógico leídos: 102,614,191,450,271,272 (91.1 PiB)
  • Bytes de disco lógico escritos: 88,784,496,475,376,328 (78.9 PiB)
  • Fecha de inicio: martes 6 de febrero 16:09:07 2024
  • Fecha de finalización: lunes 20 de mayo 05:43:16 2024
  • Pi: 7,272,017.696 segundos, 84.167 días
  • Tiempo total de cálculo: 8,698,188.428 segundos, 100.673 días
  • Tiempo de pared de principio a fin: 8,944,449.095 segundos, 103.524 días

El dígito más grande conocido de Pi es el 2, en la posición 202,112,290,000,000 (doscientos dos billones ciento doce mil millones doscientos noventa millones).

Implicaciones más amplias

Si bien calcular pi con una cantidad tan grande de dígitos puede parecer un desafío abstracto, las aplicaciones y técnicas prácticas desarrolladas durante este proyecto tienen implicaciones de gran alcance. Estos avances pueden mejorar diversas tareas computacionales, desde criptografía hasta simulaciones complejas en física e ingeniería.

El reciente cálculo de pi de 202 billones de dígitos destaca avances significativos en la densidad de almacenamiento y el costo total de propiedad (TCO). Nuestra configuración logró la asombrosa cantidad de 1.720 petabytes de almacenamiento SSD NVMe en un solo chasis de 2U. Esta densidad representa un salto adelante en las capacidades de almacenamiento de datos, especialmente considerando que el consumo total de energía alcanzó un máximo de solo 2.4 kW con carga total de CPU y unidad.

Esta eficiencia energética contrasta con las ejecuciones récord tradicionales de HPC que consumen mucha más energía y generan calor excesivo. El consumo de energía aumenta exponencialmente cuando se tienen en cuenta nodos adicionales para sistemas de almacenamiento escalables si necesita ampliar el almacenamiento compartido de baja capacidad en comparación con el almacenamiento local de alta densidad. La gestión del calor es fundamental, especialmente para centros de datos y armarios de servidores más pequeños. Enfriar los sistemas de registro HPC tradicionales no es una tarea fácil, ya que requiere enfriadores de centros de datos que puedan consumir más energía que el equipo funcionando solo. Al minimizar el consumo de energía y la producción de calor, nuestra configuración ofrece una solución más sostenible y manejable para las pequeñas empresas. Como beneficio adicional, la mayor parte de nuestra ejecución se realizó con refrigeración por aire fresco.

Para poner esto en perspectiva, imagine los desafíos que enfrentan quienes utilizan almacenamiento compartido en red y plataformas no optimizadas. Esas configuraciones requerirían uno o más enfriadores del centro de datos para mantener las temperaturas bajo control. En estos entornos, cada vatio ahorrado se traduce en una menor necesidad de refrigeración y menores costos operativos, lo que hace que nuestro enfoque de alta densidad y bajo consumo de energía sea una opción ideal. Otro beneficio fundamental de ejecutar una plataforma sencilla y eficiente para una ejecución récord es proteger toda la configuración con hardware de respaldo de batería. Como se mencionó anteriormente, necesitaría baterías de respaldo para servidores informáticos, conmutadores, servidores de almacenamiento, enfriadores y bombas de agua para mantenerlo activo durante una buena parte del año.

En general, este logro récord muestra el potencial de las tecnologías HPC actuales y subraya la importancia de la eficiencia energética y la gestión térmica en los entornos informáticos modernos.

Garantizar la precisión: la fórmula de Bailey-Borwein-Plouffe

Calcular pi con 202 billones de dígitos es una tarea monumental, pero garantizar la precisión de esos dígitos es igualmente crucial. Aquí es donde entra en juego la fórmula Bailey-Borwein-Plouffe (BBP).

La fórmula BBP nos permite verificar los dígitos binarios de pi en formato hexadecimal (base 16) sin necesidad de calcular todos los dígitos anteriores. Esto es particularmente útil para verificar secciones de nuestro cálculo masivo.

Dos de los cálculos de verificación.

Aquí hay una explicación simplificada:

  1. Salida hexadecimal: Primero generamos los dígitos de pi en hexadecimal durante el cálculo principal. La fórmula BBP puede calcular cualquier dígito individual arbitrario de pi en base 16 directamente. Puedes hacer esto con otros programas como GPUPI, pero y-cruncher también tiene una función incorporada. Si prefiere un enfoque de código abierto, las fórmulas son bien conocidas.
  2. Verificación cruzada: Podemos comparar estos resultados con nuestro cálculo principal calculando posiciones específicas de los dígitos hexadecimales de pi de forma independiente con la fórmula BBP. Si coinciden, indica claramente que toda nuestra secuencia es correcta. Hicimos esta verificación cruzada más de seis veces; Aquí hay dos de ellos.

Por ejemplo, si nuestro cálculo principal produce los mismos dígitos hexadecimales que los obtenidos con la fórmula BBP en varios puntos, podemos afirmar con confianza la precisión de nuestros dígitos. Este método no es sólo teórico; se ha aplicado prácticamente en todos los cálculos importantes de pi, lo que garantiza solidez y confiabilidad en los resultados.

R= Resultado oficial de la ejecución, V= Resultado de verificación

  • R: f3f7e2296 822ac6a8c9 7843dacfbc 1eeb4a5893 37088*
  • V: *3f7e2296 822ac6a8c9 7843dacfbc 1eeb4a5893 370888

Los lectores astutos notarán que las verificaciones de las capturas de pantalla y la comparación anterior están un poco desplazadas (*). Si bien no es necesario, dado que el hexágono se vería afectado al final, también verificamos algunas otras ubicaciones (como 100 billones y 105 billones de dígitos) para garantizar que la ejecución coincidiera. mientras es Teóricamente es posible calcular cualquier dígito decimal de pi. Usando un método similar, no está claro si eso tendría una precisión de más de 100 millones de dígitos o si sería incluso computacionalmente eficiente para hacerlo, en lugar de hacer los cálculos de Chudnovsky y obtenerlos todos. (Si Eric Weisstein ve esto, comuníquese con él; me gustaría intentarlo).

Al integrar este proceso matemático de verificación cruzada, podemos garantizar la integridad de nuestro cálculo récord de 202 billones de dígitos pi, lo que demuestra nuestra precisión computacional y nuestro compromiso con la exactitud científica.

El camino por delante

El logro de calcular pi con más de 202 billones de dígitos por parte del equipo del laboratorio StorageReview es un testimonio de los notables avances en la tecnología de almacenamiento y computación de alto rendimiento. Esta hazaña récord, que utiliza CPU Intel Xeon 8592+ en nuestros SSD Dell PowerEdge R760 y Solidigm 61.44TB QLC NVMe, resalta las capacidades del hardware moderno para manejar tareas complejas y que consumen muchos recursos con una eficiencia sin precedentes. El éxito del proyecto no sólo muestra la destreza del equipo de StorageReview sino que también subraya el potencial de la infraestructura HPC actual para ampliar los límites de las matemáticas computacionales y otras disciplinas científicas.

“Este nuevo récord mundial de Pi es un logro emocionante porque esta carga de trabajo computacional es tan intensa como muchas de las cargas de trabajo de IA que vemos hoy. Los SSD Solidigm D5-P5336 de 61.44 TB han demostrado, una vez más, que la potente combinación de capacidad ultraalta, rendimiento de lectura saturante PCIe 4 y una gran cantidad de petabytes escritos puede soportar y liberar algunas de las aplicaciones más exigentes de la actualidad”, dijo Greg Matson, vicepresidente del grupo de almacenamiento del centro de datos de Solidigm. "Estamos encantados de haber tenido la oportunidad de permitir otro intento récord para calcular Pi con nuestros socios de Dell Technologies y los expertos de StorageReview".

Este esfuerzo también ofrece información valiosa sobre cómo optimizar la densidad de almacenamiento y la eficiencia energética, allanando el camino para soluciones informáticas más sostenibles y manejables. A medida que continuamos explorando las posibilidades de HPC, las lecciones aprendidas de este proyecto sin duda impulsarán futuras innovaciones, beneficiando a varios campos, desde la criptografía hasta la ingeniería. El logro del equipo del laboratorio StorageReview constituye un hito en la historia de la computación y demuestra que podemos alcanzar nuevas alturas de descubrimiento científico y avance tecnológico con la combinación adecuada de hardware y experiencia.

AGRADECIMIENTOS

El equipo del laboratorio StorageReview agradece a Solidigm, Dell Technologies, Intel y y-cruncher Alex Yee por su inquebrantable apoyo y contribuciones a este proyecto.

 

Interactuar con StorageReview

Boletín | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed