Inicio Empresa StorageReview calculó 100 billones de dígitos de Pi en 54 días, superando a Google Cloud

StorageReview calculó 100 billones de dígitos de Pi en 54 días, superando a Google Cloud

by Jordan Ranous
amd genova cpu desnudo

Pi representa la relación entre la circunferencia de un círculo y su diámetro, y tiene un número infinito de dígitos decimales que nunca se repiten ni terminan. Calcular Pi infinito no es solo una búsqueda emocionante para los matemáticos; también es una forma de someter la potencia informática y la capacidad de almacenamiento a la última prueba de resistencia. Hasta ahora, la nube de Google ha mantenido el récord mundial de la resolución Pi más grande con 100 billones de dígitos. A partir de hoy, StorageReview ha igualado su número y lo ha hecho en una fracción del tiempo.

Pi representa la relación entre la circunferencia de un círculo y su diámetro, y tiene un número infinito de dígitos decimales que nunca se repiten ni terminan. Calcular Pi infinito no es solo una búsqueda emocionante para los matemáticos; también es una forma de someter la potencia informática y la capacidad de almacenamiento a la última prueba de resistencia. Hasta ahora, la nube de Google ha mantenido el récord mundial de la resolución Pi más grande con 100 billones de dígitos. A partir de hoy, StorageReview ha igualado su número y lo ha hecho en una fracción del tiempo.

100 billones de dígitos de Pi

Pi en el cielo, por encima de las nubes

El año pasado, la defensora de desarrolladores de Google Cloud, Emma Haruka Iwao, anunció que ella y su equipo habían calculado Pi en 100 billones de dígitos, rompiendo su récord anterior de 31.4 billones de dígitos de 2019. Usaron un programa llamado y-cruncher que se ejecuta en Compute Engine de Google Cloud, que tardó unos 158 días en completarse y procesó alrededor de 82 petabytes de datos. Al final, esa ejecución también habría tenido una enorme factura de computación y almacenamiento en la nube, combinada con el creciente impulso de las organizaciones para traer cargas de trabajo específicas de vuelta a las instalaciones, lo que nos dio una idea interesante...

Nos impresionó el logro de Emma y Google Cloud, pero también nos preguntamos si podríamos hacerlo más rápido, con un costo total más bajo. En StorageReview.com, tenemos acceso a algunos de los mejores y más recientes hardware de la industria, incluidos Procesadores AMD EPYC de cuarta generación, solidigma SSD P5316y cantidades obscenas de baterías de litio. Como una combinación perfecta, construimos un servidor de alto rendimiento con poco menos de 600 TB de flash QLC y una solución de energía de alta disponibilidad única.

Estas son las especificaciones de nuestro sistema informático:

  • 2 x AMD EPYC 9654 (96 núcleos, 2.4 GHz, aumento de 3.7 GHz)
  • 24 módulos DIMM DDR64-5 de 4800 GB, 1.5 TB en total
  • 19 x SSD Solidigm QLC P30.72 de 5316 TB
  • Windows Server 2022 Estándar 21H2
  • Programa: trituradora por Alexander Ye

Si bien el hardware total puede parecer extremo, el costo de comprar nuestro hardware sigue siendo una fracción de ejecutar la misma carga de trabajo en la nube durante seis meses.

Centro de datos: diseñado por Madmen

Una de las primeras preguntas que surgieron cuando estábamos diseñando nuestro equipo para esta prueba fue: "¿Cómo vamos a presentar un volumen contiguo lo suficientemente grande como para almacenar un archivo de texto con 100 billones de dígitos de Pi?" cita que dijimos totalmente). La matemática es bastante simple, 1 dígito Pi = 1 byte, y tener 100 billones de dígitos decimales significaba que necesitábamos 100 TB para eso y 83 TB adicionales para los 83 billones hexadecimales que también se calcularían. Afortunadamente, esto es StorageReview, y si hay algo que sabemos cómo hacer, es almacenar muchos datos con una cantidad excesiva de estrés.

Desafortunadamente, incluso Kevin no tiene una unidad flash de 183 TB en su llavero de unidades flash del tamaño de un conserje (todavía). Entonces, después de buscar y probar varios métodos en el laboratorio y explorar múltiples formas de mapear un NAS o un recurso compartido de archivos, notamos a través de las pruebas que a y-cruncher le gusta tener el control Direct IO de los discos con los que está trabajando; no solo los discos de intercambio, sino también el directorio de salida del archivo. Darle a y-cruncher un volumen al que pueda enviar comandos SCSI era nuestra única opción, ya que ofrece un rendimiento óptimo.

Entonces, lo único lógico que se podía hacer a continuación era usar un objetivo iSCSI para un servidor de almacenamiento supermicro para almacenar los archivos de salida, que eran demasiado grandes para caber en un solo volumen en el host de cómputo local. Esta plataforma era más tradicional en el sentido de almacenamiento de alta capacidad, alojando "solo" 200 TB en cuatro LUN de 50 TB que dividimos en nuestra plataforma informática.

Si bien RAID 0 podría sorprender a algunos, en nuestra defensa, el almacenamiento del servidor de archivos se extrajo de un grupo de espacios de almacenamiento de Windows duplicados, por lo que la redundancia estaba disponible en el host remoto. A continuación, se utilizó una ruta múltiple a través de una interfaz 10G de doble puerto, se conectó directamente y se conectó entre ambos servidores. La eliminación de un interruptor de esta ecuación fue a propósito, ya que esta plataforma Pi fue diseñada para operar completamente por separado en caso de que el laboratorio principal se desconectara.

Si bien la protección de energía no siempre es una gran preocupación en el laboratorio de StorageReview, un proyecto de esta magnitud (que abarca meses) exigió medidas extremas para garantizar el tiempo de actividad. Aprovechamos tres Centrales eléctricas portátiles EcoFlow Delta Pro, cada uno con una capacidad de salida de 3600 W y una batería de 3600 Wh.

El servidor AMD Genoa aprovechó dos, con uno Eaton 5PX fuente de alimentación ininterrumpida en línea entre un Delta Pro, para aliviar el retraso de conmutación del EcoFlow durante un apagón. El servidor de archivos tenía un Delta Pro dedicado, con una Eaton 5PX G2 por retrasos en las transferencias.

En resumen, creamos un UPS con esteroides, combinando los beneficios de las estaciones de energía portátiles de alta capacidad con la confiabilidad de un moderno equipo de respaldo de batería de nivel de centro de datos. En la carga máxima de cómputo, tuvimos un tiempo de ejecución de 4 a 8 horas con batería. Tuvimos numerosas tormentas durante la ejecución de 100T Pi, pero pudimos dormir tranquilos, sabiendo que la ejecución de Pi permanecería operativa.

Carne, Patatas y Pi. Montones y Montones de Pi…

Comenzamos el cálculo el jueves 9 de febrero a las 17:40:47 de 2023 EST y finalizó el lunes 10 de abril a las 05:27:37 de 2023 EST. El tiempo de cálculo de Pi transcurrido fue de 54 días, 17 horas, 35 minutos y 48.96 segundos, con un tiempo total de pared a pared, incluidas la escritura y la validación, de 59 días, 10 horas, 46 minutos y 49.55 segundos.

El tamaño de almacenamiento total disponible era de 530.1 TB, sin incluir el objetivo iSCSI de 200 TB para la escritura. Estos son algunos aspectos destacados de los contadores del archivo de validación de y-cruncher, disponible para descarga y verificación.

Los Números

Fecha de inicio: jue 9 feb 17:40:47 2023

Modelo de trabajo:

  • Constante: Pi
  • Algoritmo: Chudnovsky (1988)
  • Dígitos decimales: 100,000,000,000,000
  • Dígitos hexadecimales: 83,048,202,372,185
  • Memoria de trabajo: 1,512,978,804,672 (1.38 TiB)
  • Memoria total: 1,514,478,305,280 1.38 XNUMX XNUMX XNUMX (XNUMX TiB)

Contadores de disco lógico:

  • Punto de control lógico más grande: 150,215,548,774,568 137 XNUMX XNUMX XNUMX (XNUMX TiB)
  • Uso máximo de disco lógico: 514,540,112,731,728 468 XNUMX XNUMX XNUMX (XNUMX TiB)
  • Total de bytes de disco lógico leídos: 40,187,439,132,182,512 35.7 XNUMX XNUMX XNUMX XNUMX (XNUMX PiB)
  • Total de bytes escritos del disco lógico: 35,439,733,386,707,040 31.5 XNUMX XNUMX XNUMX XNUMX (XNUMX PiB)

Los números no mienten:

  • Tiempo total de cálculo: 4728948.966 segundos
  • Tiempo de pared de principio a fin: 5136409.559 segundos
  • Últimos dígitos decimales:
    • 4658718895 1242883556 4671544483 9873493812 1206904813: 99,999,999,999,950
    • 2656719174 5255431487 2142102057 7077336434 3095295560: 100,000,000,000,000

Fecha de finalización: Lun 10 de abril 05:27:37 2023

Los diez dígitos de Pi que conducen a 100 billones son 3095295560.

Calculamos Pi a 100 billones de dígitos en aproximadamente un tercio del tiempo, gracias en parte a todo el espacio de almacenamiento de intercambio local en comparación con el método de Google. Esto muestra el increíble rendimiento, la densidad y la eficiencia de las SSD Solidigm P5316 QLC conectadas localmente y, por supuesto, los procesadores AMD EPYC de 4.ª generación.

El almacenamiento local fue parte integral de esta carrera de velocidad. Si bien la ejecución de Google podía aprovechar cantidades casi ilimitadas de almacenamiento, estaba limitada a una interfaz de red de 100 Gb. Es extraño decir que 100 Gb es lento, pero a la escala de nuestra prueba, se convierte en un gran cuello de botella. Durante nuestras ráfagas de escritura de intercambio, medimos velocidades de transferencia acumulativas a los SSD Solidigm P5316 QLC superiores a 38 GB/s.

Las velocidades de lectura eran aún más altas. En términos de red, necesitaría múltiples enlaces de 400 Gb (redundancia) para hacer fluir esa cantidad de datos. Si bien no es imposible, muchos entornos de nube simplemente no están diseñados para ese nivel de ancho de banda. Las instancias de E/S densas sin sistema operativo de Oracle probablemente sean las más cercanas a esta escala de velocidad bruta, pero están limitadas a ocho SSD NVMe y 54.4 TB de capacidad combinada.

Solidigm QLC Flash para rendimiento, resistencia y densidad

Para facilitar un cálculo tan significativo, necesitábamos espacio, y mucho, tan rápido como pudiéramos encontrarlo. El modo de intercambio es una característica de y-cruncher que permite realizar cálculos usando el disco, que es necesario para realizar cálculos grandes que no caben en la memoria principal. El uso de varias unidades en paralelo es necesario para un mejor rendimiento y, para mejorar aún más el rendimiento, se pueden usar unidades de estado sólido (SSD). Sin embargo, no se ha recomendado en el pasado porque el análisis teórico de su escritura no es alentador.

El uso del modo de intercambio de y-cruncher, en lugar de confiar en el archivo de paginación del sistema operativo, es esencial porque los patrones de acceso a la memoria en y-cruncher no son compatibles directamente con el disco. Afortunadamente, el modo de intercambio de y-cruncher está diseñado para superar esta limitación al minimizar las búsquedas de disco y usar accesos de disco secuenciales. El modo de intercambio de y-crunchers se usó en una configuración RAID 0 con 19 unidades, lo que le dio a la aplicación acceso de E/S directo a los discos NVMe para un rendimiento óptimo.

Los SSD Solidigm P5316 que usamos en nuestra prueba utilizan una interfaz PCIe Gen4 y están equipados con memoria flash QLC NAND de 144 capas. Ofrecen un rendimiento excepcional, con hasta 7 GB/s de velocidad de lectura secuencial y hasta 3.6 GB/s de velocidad de escritura secuencial.

Las unidades de estado sólido QLC son reconocidas por su capacidad para reducir los gastos sin comprometer la capacidad de almacenamiento y el rendimiento eficiente. Esto hace que la tecnología QLC SSD sea beneficiosa para muchas situaciones comerciales. Por ejemplo, VAST Data incorpora estas unidades en sus productos para eliminar la necesidad de unidades de disco duro. Al mismo tiempo, Pliops emplea una tarjeta aceleradora con unidades QLC para una resolución rápida y rentable.

Hemos tenido estas unidades en nuestro laboratorio desde fines de 2021 y las hemos sometido a muchas pruebas, pero esta fue una de las pruebas más intensivas y extensas hasta la fecha. De las 19 unidades que usamos, todas tenían una salud del 99-100 % al comienzo del cálculo.

Durante los 54.5 días que se ejecutó este cálculo, tuvimos un total de 33,127,095 1,742,500 29 GB de escritura en las unidades, o alrededor de XNUMX XNUMX XNUMX GB por unidad. Convirtiendo esto en un excedente diario durante nuestra ejecución, eso es un poco más de XNUMX TB por unidad por día.

La extrapolación para una carga de trabajo simulada a más largo plazo es de aproximadamente 10.69 PB por año de escrituras de datos por unidad. Solidigm enumera la resistencia del P5316 en 22.9 PBW para cargas de trabajo aleatorias y 104.6 PBW para cargas de trabajo secuenciales. Con la carga de trabajo Pi permaneciendo en ráfaga durante su duración sin sobrecargar demasiado el flash, actuó de manera muy secuencial, poniendo la carga de trabajo hacia el extremo superior del espectro de resistencia de Solidigm.

Esto significa que podría someterlos a una carga de trabajo similar durante casi una década antes de que se quede sin vida. Impresionante por decir lo menos, considerando que se trata de QLC NAND y la garantía de la unidad es de cinco años. Cualquier persona preocupada por el desgaste de estas unidades puede usar este caso de uso como otro punto de validación de que QLC está listo para la empresa.

Al final de la ejecución de 59.5 días, se informó que el estado de salud era del 97-98 % en todas las unidades del servidor. Apenas habíamos hecho mella en la resistencia de estos discos.

CPU AMD EPYC épicas

Los procesadores AMD EPYC de 4.ª generación se basan en la microarquitectura Zen 4 y el proceso de 5 nm, lo que los convierte en los primeros procesadores de centro de datos x5 de 86 nm de la industria. Admiten hasta 12 canales de memoria DDR5, AVX-512 VNNI e instrucciones BFloat16 para mejorar el rendimiento en aplicaciones de IA y ML. Ofrecen hasta un 30 % más de rendimiento por núcleo que los procesadores Ice Lake de Intel y hasta el doble de rendimiento que los procesadores EPYC Milan de la generación anterior de AMD.

amd genova cpu desnudo

El ajuste fue una gran parte de esta ejecución, ya que habíamos probado e iterado exhaustivamente a través de registros más pequeños de cálculos de Pi, como 1 millones y 10 millones. A través de algunos ajustes con el BIOS y usando el tiempo de ejecución de 10 mil millones como métrica, pudimos obtener mejoras significativas en el rendimiento para esta carga de trabajo. Esto nos dio una ventaja significativa sobre la utilización de recursos en la nube, ya que teníamos un control granular sobre la plataforma para optimizarla para nuestra aplicación, lo cual no es una opción con las instancias en la nube listas para usar.

Comenzamos por deshabilitar SMT en el BIOS y obtuvimos algunas mejoras porcentuales en el tiempo de ejecución de las pruebas más pequeñas. La siguiente opción que exploramos fue C-States. Nos dimos cuenta de que cuando se ejecutaba y-cruncher, la CPU tendía a entrar y salir de estados c de menor potencia con bastante frecuencia, ya que pasaba por diferentes procesos.

El ajuste de la configuración del BIOS, incluida la desactivación de SMT y el control de los estados C, combinado con algunos ajustes de rendimiento en el sistema operativo, fue un factor crucial para mejorar el rendimiento de esta carga de trabajo. Un gran agradecimiento a Alexander Yee de y-Cruncher, y a un amigo de la escena de overclocking, Forks, por ayudarnos a señalar algunos ajustes y configuraciones tanto en Windows como en y-Cruncher para ayudar a que esta carrera funcione.

Pi; Carrera de velocidad 100T, 100%. ¿Ahora que?

Bueno, amigos, mientras terminamos esta peregrinación, tomemos un momento para disfrutar de la gloria de calcular la friolera de 100 billones de dígitos de Pi en solo 54 días del tamaño de un bocado. Gracias al programa y-cruncher, la fuerza hercúlea de los procesadores AMD EPYC de 4.ª generación y las ultrarrápidas SSD Solidigm P5316 QLC, hemos sido testigos de un logro que hará sonrojar a su calculadora.

Empujando los límites del poder de la computadora sin procesar y el almacenamiento de datos de tamaño oceánico, nuestro confiable equipo de unidades de almacenamiento flash QLC conectadas localmente realmente tuvo su tiempo para brillar. Las SSD Solidigm P5316, con su resistencia y rendimiento excepcionales, son como los compañeros superhéroes del mundo empresarial. Y no nos olvidemos de nuestras estaciones de energía portátiles y equipo de respaldo de batería robusto, asegurando que nuestro Pi-rade siguiera funcionando, incluso cuando la Madre Naturaleza trató de llover sobre nuestra celebración perfectamente horneada.

Entonces, mientras nos despedimos de este gran espectáculo de Pi que batió récords, levantemos una porción de las infinitas posibilidades en los mundos de las matemáticas y la informática que se avecinan. ¡Salud!

Visita Solidigm

Interactuar con StorageReview

BOLETÍN  | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed