Inicio Empresa Revisión de Intel Virtual RAID en CPU (VROC)

Revisión de Intel Virtual RAID en CPU (VROC)

by Brian Beeler

Los SSD NVMe se están apoderando del centro de datos y se están consolidando rápidamente como la tecnología de referencia para aplicaciones de misión crítica. La interfaz NVMe permite que el flash se ejecute libremente, superando los cuellos de botella heredados de las interfaces SATA y SAS. Sin embargo, la eliminación de las compuertas flash introduce nuevos desafíos arquitectónicos que no se resuelven fácilmente con los diseños de servidor de tarjetas HBA/RAID tradicionales. Intel ha abordado este problema con una solución simplificada para administrar SSD NVMe en servidores. RAID virtual en la CPU, o Intel VROC para abreviar, esencialmente permite que los SSD tengan acceso directo a las CPU, eliminando por completo la necesidad de un HBA. Esto simplifica enormemente tanto la ruta de datos como los componentes necesarios para aprovechar al máximo las SSD NVMe en los servidores. Además de RAID de nivel empresarial, Intel VROC incluye la capacidad de servicio esperada que demanda la empresa, incluida la administración de RAID previa al arranque, soporte de conexión en caliente y administración de LED.


Los SSD NVMe se están apoderando del centro de datos y se están consolidando rápidamente como la tecnología de referencia para aplicaciones de misión crítica. La interfaz NVMe permite que el flash se ejecute libremente, superando los cuellos de botella heredados de las interfaces SATA y SAS. Sin embargo, la eliminación de las compuertas flash introduce nuevos desafíos arquitectónicos que no se resuelven fácilmente con los diseños de servidor de tarjetas HBA/RAID tradicionales. Intel ha abordado este problema con una solución simplificada para administrar SSD NVMe en servidores. RAID virtual en la CPU, o Intel VROC para abreviar, esencialmente permite que los SSD tengan acceso directo a las CPU, eliminando por completo la necesidad de un HBA. Esto simplifica enormemente tanto la ruta de datos como los componentes necesarios para aprovechar al máximo las SSD NVMe en los servidores. Además de RAID de nivel empresarial, Intel VROC incluye la capacidad de servicio esperada que demanda la empresa, incluida la administración de RAID previa al arranque, soporte de conexión en caliente y administración de LED.

Descripción general de la arquitectura Intel VROC

Para comprender mejor Intel VROC, es importante comprender otra tecnología llamada Dispositivo de administración de volumen Intel (Intel VMD). Compatible con los últimos procesadores escalables Intel Xeon, Intel VMD es un controlador integrado dentro del complejo raíz CPU PCIe. El resultado neto es que Intel VMD habilita más o menos HBA virtuales para los SSD NVMe conectados. Esto es importante porque Intel VMD ofrece funciones críticas de capacidad de mantenimiento de unidades que se simplifican sin sacrificar la confiabilidad. Gracias a Intel VMD, los SSD NVMe se pueden intercambiar en caliente sin interrumpir el servicio ni reiniciar. Intel VMD redirige los eventos de bus PCIe de inserción y eliminación a controladores compatibles con almacenamiento RAID que manejan estos eventos e iniciarán una reconstrucción automática. En caso de falla, saber qué unidad quitar también es fundamental, lo que puede ser difícil en centros de datos con docenas o cientos de unidades y prácticas de etiquetado de bahías de unidades de proveedores inconsistentes. Intel VMD es compatible con la administración de LED NVMe, que está en línea con la especificación de luz de la unidad que las unidades SATA y SAS han utilizado durante años, lo que facilita la identificación y el mantenimiento de una SSD cuando es necesario. Intel VMD también es ampliamente compatible en la industria, VMware, por ejemplo, admite el controlador Intel VMD NVMe de forma nativa en la versión VMware ESXi 6.7, que incluye soporte para administrar SSD NVMe en vSAN.

Intel VROC se basa en Intel VMD, lo que trae NVMe SSD RAID a la imagen. Actualmente, una sola CPU escalable Xeon puede admitir hasta 12 unidades de conexión directa NVMe y hasta 6 matrices RAID. Un sistema de proceso dual admitiría 24 y 12 respectivamente. Sin embargo, una CPU podría aprovechar los conmutadores para admitir hasta 48 SSD en un sistema. Intel VROC admite volúmenes de datos y volúmenes de arranque, algo que históricamente ha sido difícil de lograr para las unidades NVMe. Los ajustes de RAID se pueden configurar a través de BIOS o CLI e Intel admite la administración de forma local o remota a través del agente RESTful.

Intel VROC se vende como clave física; hay tres SKU disponibles. El estándar admite RAID 0/1/10 con compatibilidad con SSD de terceros. La licencia Premium agrega soporte para RAID3. También hay una licencia Intel SSD Only que, como su nombre lo indica, solo admite unidades Intel, pero ofrece la gama completa de opciones RAID.

Además de una licencia, SSD NVMe y CPU escalables Xeon, se necesita un servidor compatible. Si bien Intel VROC es ampliamente compatible, hay algunos proveedores de servidores que prefieren sus propias tecnologías basadas en tarjetas para administrar unidades en lugar de esta alternativa más moderna. En esta revisión, nos asociamos con EchoStreams, que admite Intel VROC en todas sus líneas de servidores de almacenamiento.​

Para una caja tan pequeña, la EchoStreams FlacheSAN1N10U-D5 es extremadamente flexible. En nuestra configuración, el servidor está equipado con dos CPU Intel 8180M, 64 GB de RAM y ocho procesadores de 2 TB. SSD Intel DC P4510 NVMe. El servidor ofrece tres ranuras PCIe 16 x3.0, lo que permite a los usuarios maximizar todo el potencial de la capacidad de almacenamiento interno con hasta 160 TB de flash NVMe (10 SSD de 16 TB) y tres NIC Ethernet de 100 Gbps.

El diseño del chasis también permite un diseño simétrico entre ambas CPU, las SSD NVMe y las NIC de salida. Como oferta de caja blanca, el chasis también se puede personalizar para el usuario final, admitiendo otros tamaños de SSD como 15 mm y 7 mm U.2, así como SSD internos M.2 e Intel Optane. Por último, el servidor se puede configurar con una fuente de alimentación de CA dual de 850 W o configurarse para admitir fuentes de alimentación de alta eficiencia de 48 V CC. Dadas las CPU Intel de gama alta en nuestra configuración, las fuentes de alimentación más grandes resultaron útiles.

Mirando dónde FlacheSAN1N10U-D5 puede agregar valor, EchoStreams apunta a las redes de entrega de contenido (CDN) como un caso de uso principal. Actualmente, los clientes utilizan estos nodos como dispositivos de almacenamiento en caché, ya sea en el centro de datos o en ubicaciones de borde para entregar contenido popular a los usuarios finales. También hay varias universidades que aprovechan la plataforma para HPC y usos de investigación en los que la potencia computacional y el rendimiento del almacenamiento brindan una ventaja fundamental para resolver problemas complejos. Más allá de estos escenarios, el servidor también funciona bien para el flujo de trabajo de posproducción de medios y entretenimiento y también combina bien con las ofertas de almacenamiento definido por software que pueden beneficiarse del almacenamiento NVMe y las redes de alta velocidad.

Especificaciones de EchoStreams FlacheSAN1N10U-UN

Factor de forma 1U
CPU Compatible con procesador escalable Intel Xeon de doble zócalo LGA3647
chipset Intel C622
RAM DDR4 hasta 1.5 TB RDIMM/RDIMM/LRDIMM 2666/2400 MHz
Ranuras DIMM Hasta 16
compartimentos de unidad
  • 8 NVMe U.2.5 intercambiables en caliente de 2"
  • 2 x M.2 NVMe interno para unidades OS
Me interfaz de E / S
  • puertos USB 2 3.0x
  • 1x puerto VGA
  • 1 puerto COM
  • 2 puertos de 1 GbE
  • 1 administrador de 1 GbE
Slots de expansión
  • 2x PCIe Gen3 x16 Altura completa Media longitud
  • 1 PCIe Gen3 x16 OCP 2.0
Backplane Placas posteriores NVMe de 5 x 2 bahías
Sistemas operativos soportados
  • Servidor Microsoft Windows 64 bits 2012/R2
  • Ventanas 2016 64bit
  • LinuxRHEL 7.4
  • SUSE 11 SP4x64,
  • SUSE 12 SP2 x64
  • Ubuntu 16.04 x64
  • Ubuntu 17.04 x64
Potencia
  • 1+1 fuentes de alimentación redundantes de alta eficiencia de 850 W CA/CC o -48 V CC/CC
  • 5 ventiladores de 40 mm con Smart Fan Control
Físico
  • LxAnxAl 27”x19”x1.75”
  • Peso 35 libras sin unidades
Medio ambiente
  • Temperatura de funcionamiento: 0 ° C a 35 ° C
  • Temperatura no operativa: -20 °C a 70 °C
  • Humedad: 5% a 95% sin condensación


Usabilidad y Despliegue

La placa base no tiene una GUI elegante para configurar Intel VROC, pero es fácil de usar. Para los administradores de TI que pueden estar familiarizados con el uso de comandos mdadm desde una consola, Intel VROC automatiza gran parte del trabajo de back-end para simplificar la configuración. Si bien no está cargado de campanas y silbatos, no será difícil de usar para la mayoría de los profesionales de TI. Desde la pantalla del BIOS, los usuarios pueden configurar sus volúmenes RAID mientras ven los discos físicos que están disponibles.

A continuación, se puede nombrar el volumen (volume0 en este caso), seleccionar el nivel de RAID y habilitar RAID distribuido en ambos controladores Intel VMD.

Una vez que se configura el RAID, se pueden ver las acciones del volumen, como eliminar el volumen RAID o hacerlo arrancable.

Por último, los usuarios pueden realizar acciones en el disco, como restablecer a no RAID o eliminar los datos RAID de los discos.

Una vez que el sistema estuvo en funcionamiento en nuestro entorno CentOS 7.4, la configuración de los volúmenes RAID estuvo lista y esperando. Para los volúmenes RAID5/10, puede ver mdstat para ver el progreso de la inicialización en segundo plano o cambiar todo el grupo RAID manualmente si lo desea. La configuración del nivel del BIOS elimina gran parte del trabajo preliminar para poner en marcha RAID, pero no lo elimina ni lo reemplaza para los usuarios que desean ese nivel adicional de personalización.

Performance

Análisis de carga de trabajo de VDBench

Cuando se trata de comparar matrices de almacenamiento, las pruebas de aplicaciones son las mejores y las pruebas sintéticas ocupan el segundo lugar. Si bien no es una representación perfecta de las cargas de trabajo reales, las pruebas sintéticas ayudan a los dispositivos de almacenamiento de referencia con un factor de repetibilidad que facilita la comparación de manzanas con manzanas entre las soluciones de la competencia. Estas cargas de trabajo ofrecen una gama de diferentes perfiles de prueba que van desde pruebas de "cuatro esquinas", pruebas comunes de tamaño de transferencia de bases de datos, así como capturas de seguimiento de diferentes entornos VDI. Todas estas pruebas aprovechan el generador de cargas de trabajo vdBench común, con un motor de secuencias de comandos para automatizar y capturar resultados en un gran clúster de pruebas informáticas. Esto nos permite repetir las mismas cargas de trabajo en una amplia gama de dispositivos de almacenamiento, incluidos arreglos flash y dispositivos de almacenamiento individuales.

perfiles:

  • Lectura aleatoria 4K: 100 % de lectura, 128 subprocesos, 0-120 % de iorate
  • Escritura aleatoria 4K: 100 % de escritura, 64 subprocesos, 0-120 % de iorate
  • Lectura secuencial de 64 K: 100 % de lectura, 16 subprocesos, 0-120 % de iorate
  • Escritura secuencial de 64 K: 100 % de escritura, 8 subprocesos, 0-120 % de iorate
  • Base de datos sintética: SQL y Oracle
  • Trazas de clones vinculados y clones completos de VDI

Para esta serie de pruebas de VDBench, ejecutaremos nuestras pruebas normales, pero en lugar de un dispositivo (por ejemplo, SSD, servidor o matriz), ejecutaremos varias configuraciones equilibradas en ambas CPU:

  • 8 unidades en JBOD
  • Dos grupos de cuatro SSD en RAID0
  • Dos grupos de cuatro SSD en RAID5
  • Dos grupos de cuatro SSD en RAID10

Los datos que se presentan a continuación son el total del uso de 8 SSD en cada configuración. Estos datos simplemente pretenden resaltar lo que esta plataforma es capaz de hacer en la variedad de configuraciones que admite Intel VROC. Cabe señalar que RAID5 presenta un rendimiento de escritura más bajo a lo largo de esta revisión debido a la complejidad de los cálculos de paridad y la actualización, y se espera según las comparaciones de niveles de RAID.

Para un rendimiento aleatorio máximo de 4K, todos los grupos RAID pudieron permanecer por debajo de 1 ms para la latencia (de hecho, todos los grupos estaban por debajo de 210 μs). Todos los grupos terminaron entre 2.5 millones y 3 millones de IOPS y el grupo JBOD obtuvo el máximo rendimiento con 2,944,335 163 XNUMX IOPS y una latencia de XNUMX μs.

La escritura aleatoria de 4K no vio la misma unidad con los diferentes grupos RAID. El grupo RAID5 tuvo el rendimiento más bajo con un pico de 21,921 936.7 IOPS y una latencia de 0 ms. Los otros grupos RAID se desempeñaron mejor con el grupo RAID1,879,180 alcanzando un máximo de 1.35 XNUMX XNUMX IOPS con una latencia de XNUMX ms.

Cambiando a cargas de trabajo secuenciales, la lectura de 64K mostró que todos los grupos RAID comenzaron con una latencia inferior al milisegundo y solo el JBOD superó 1 ms alrededor de 330 22 IOPS o 363,203 GB/s y alcanzó un máximo de 22.7 1.4 IOPS o XNUMX GB/s con una latencia de solo XNUMX EM.

Una vez más, con las escrituras, los grupos RAID se rompen y ofrecen rendimientos muy diferentes. Una vez más, el grupo RAID5 agotó alrededor de 25 4.3 IOPS con una latencia de 0 ms y RAID124,104 pasó a 958 XNUMX IOPS con una latencia de XNUMX μs.

Lo siguiente son nuestras cargas de trabajo de SQL. Todos los grupos RAID tuvieron un rendimiento de latencia de submilisegundos hasta alrededor de 1.4 millones de IOPS. Aquí, el grupo RAID5 aumentó en latencia y disminuyó en rendimiento. Los otros tres grupos continuaron por debajo de 1 ms hasta que superaron los 2 millones de IOPS. Los números más altos se otorgan una vez más al grupo RAID0 con un rendimiento máximo de 2,519,727 1.45 XNUMX IOPS a una latencia de XNUMX ms.

Para SQL 90-10, vimos un mejor perfil de latencia para el grupo RAID5 con un pico de 302 μs, pero su rendimiento máximo fue de solo 436,439 1.5 IOPS. Los otros grupos superaron los 1 millones de IOPS antes de romper 10 ms, y los grupos JBOD y RAID0 alcanzaron su punto máximo poco después. El grupo RAID2,135,362 alcanzó un máximo de 1.54 XNUMX XNUMX IOPS con una latencia de XNUMX ms.

Una vez más en SQL 80-20, el grupo RAID5 tenía una latencia de submilisegundos con un rendimiento más bajo en comparación con los demás, 345 μs a 212,980 1 IOPS. Los otros grupos pasaron 1 millón de IOPS por debajo de 10 ms con JBOD y RAID0 alcanzando su punto máximo poco después una vez más y RAID1,753,622 alcanzando un máximo de 1.7 XNUMX XNUMX IOPS con una latencia de XNUMX ms.

Nuestros puntos de referencia de Oracle, como era de esperar, nos dieron una ubicación similar a la anterior. El grupo RAID5 alcanzó su punto máximo primero con 61,695 153 IOPS con una latencia de 780 μs. Las otras unidades lograron alrededor de 1 10 IOPS juntas en menos de 954,567 ms antes de que RAID2.63 superara y alcanzara su punto máximo (1,274,172 4.2 IOPS con una latencia de 0 ms), seguida por JBOD (con un pico de 1,472,338 2.18 XNUMX IOPS con una latencia de XNUMX ms) y finalmente el grupo RAIDXNUMX con un pico de XNUMX IOPS con una latencia de XNUMXms.

Oracle 90-10 tuvo el pico del grupo RAID5 primero con 406,693 IOPS y una latencia de 255 μs. Los otros grupos tenían una latencia inferior al milisegundo hasta más de 1.5 millones de IOPS y alcanzaron su punto máximo de la misma manera que hemos estado viendo: RAID10, JBOD y RAID0 con el primer puesto de 2,110,799 1.55 XNUMX IOPS y una latencia de XNUMX ms.

Para Oracle 80-20, el grupo RAID5 alcanzó un máximo de 213,479 327 IOPS y una latencia de 1 μs. Los otros grupos llegaron a más de 0 millón de IOPS antes de alcanzar el máximo con RAID1.65, llegando a 1 millones de IOPS a menos de 1,757,722 ms y alcanzando un máximo de 1.63 XNUMX XNUMX IOPS con una latencia de XNUMX ms.

A continuación, cambiamos a nuestra prueba de clonación de VDI, completa y vinculada. Aquí seguimos viendo el mismo patrón familiar de ubicación para los diferentes grupos RAID: RAID5, RAID10, JBOD y RAID0. Para VDI Full Clone Boot, el grupo RAID5 alcanzó un máximo de 288,613 182 IOPS con una latencia de 1.2 μs. Los otros grupos llegaron a casi 10 millones de IOPS con una latencia de submilisegundos antes de que primero el grupo RAID1,217,620 se disparara a 2.65 1,314,075 4.19 IOPS con una latencia de 0 ms, seguido del grupo JBOD con 1,400,765 2.22 XNUMX ​​IOPS con una latencia de XNUMX ms y luego el grupo RAIDXNUMX con XNUMX XNUMX XNUMX IOPS con una latencia de XNUMX ms. una latencia de XNUMXms.

Con el inicio de sesión inicial de VDI FC, el grupo RAID5 tuvo una ejecución muy corta con un máximo de 13,296 286 IOPS y 175 μs de latencia. Las otras unidades llegaron a 1 0 IOPS antes de romper 390 ms. El grupo RAID429,692 llegó hasta 4.98 XNUMX IOPS con una latencia de submilisegundos y alcanzó un máximo de XNUMX XNUMX IOPS con una latencia de XNUMX ms.

Con el inicio de sesión de VDI FC Monday, el grupo RAID5 alcanzó un máximo de 15 262 IOPS con 150 μs. Los otros grupos RAID superaron los 1 10 antes de romper 12.8 ms con el grupo RAID11.7 y JBOD con una latencia bastante alta de 234,431 ms y 341,483 ms respectivamente, aunque el rendimiento fue impresionante, 0 435,641 IOPS y 5.67 XNUMX IOPS. El grupo RAIDXNUMX tuvo el mejor rendimiento general con XNUMX XNUMX IOPS y una latencia de XNUMX ms.

Cambiando a nuestras pruebas VDI Linked Clone, vemos un rendimiento mucho más sólido de todos los grupos en nuestro arranque con el grupo RAID5 alcanzando un máximo de 543,680 407 IOPS y una latencia de 10 μs, RAID782,224 alcanzando un máximo de 4.76 822,555 con una latencia de 11.52 ms, JBOD alcanzando un máximo de 0 820,998 IOPS con una latencia de 4.39 ms y RAIDXNUMX alcanza un máximo de XNUMX XNUMX IOPS con una latencia de XNUMX ms.

Con el inicio de sesión inicial de VDI LC, vemos rendimientos máximos que van desde 10,998 312 IOPS con una latencia de 5 μs desde RAID276,814 hasta 7.88 0 IOPS con una latencia de XNUMX ms para RAIDXNUMX.

Finalmente, con VDI LC Monday Login, seguimos viendo el patrón de RAID5 que termina primero (11,591 315 IOPS a 10 μs), seguido de RAID155 (aproximadamente 1.2 238 IOPS a 15.8 ms de pico), luego JBOD (aproximadamente 0 279,332 IOPS a 8.06 ms de pico) y finalmente RAIDXNUMX ( XNUMX IOPS a XNUMX ms).

Conclusión

Al observar el rendimiento de Intel VROC en esta plataforma EchoStreams de 1U, observamos cuatro grupos de prueba diferentes, cada uno de los cuales utilizó datos agregados de 8x de los SSD Intel P4510 NVMe. Es fácil declarar RAID0 como el "ganador" del grupo, pero eso es por razones esperadas debido a cómo funciona RAID. Mirando los resultados de rendimiento de abajo hacia arriba; como se señaló al principio, RAID5 tiene una fuerte penalización por redundancia de datos con cálculos de paridad y eso se refleja claramente en los datos. RAID10 utiliza la duplicación, por lo que la penalización por redundancia es mucho menor y, por lo tanto, los resultados dan un gran salto en comparación con RAID5. Ese grupo es seguido por JBOD, con rendimiento de transferencia agregado. RAID0 lidera los números, ya que se centra únicamente en el rendimiento y aprovecha las unidades que funcionan en conjunto a través de la división de datos, pero sacrifica la capacidad de recuperación de los datos. Todos los datos, desde la perspectiva de la funcionalidad RAID, respaldan el hecho de que Intel VROC está bien implementado y brinda resultados consistentes y esperados en una plataforma bien diseñada.

En lugar de repasar cada resultado en detalle (con cuatro grupos, esto generará un total de 64 resultados), veremos algunos de los aspectos más destacados. En nuestra prueba 4K, vimos que el grupo JBOD casi alcanzó los 3 millones de IOPS con una latencia de submilisegundos para lecturas y RAID0 alcanzó los 1.9 millones de IOPS con una latencia de solo 1.35 ms. Para 64K secuenciales, vimos cifras de hasta 22.7 GB/s de lectura y 7.8 GB/s de escritura. Nuestras pruebas de SQL vieron 2.5 millones de IOPS, 2.1 millones de IOPS para 90-10 y 1.75 millones de IOPS para 80-20, todo con una latencia de 1.7 ms. Oracle vio 1.47 millones de IOPS, 2.1 millones de IOPS para 90-10 y 1.76 millones de IOPS para 80-20, todo con una latencia de 2.18 ms o menos. Nuestra prueba de VDI mostró un arranque FC de 1.4 millones de IOPS, un inicio de sesión inicial FC de 430 436 IOPS, un inicio de sesión lunes VDI FC de 821 277 IOPS y un inicio LC de 279 XNUMX IOPS, un inicio de sesión inicial LC de XNUMX XNUMX IOPS y un inicio de sesión lunes LC de XNUMX XNUMX IOPS.

En última instancia, lo que Intel VROC proporciona a los proveedores de sistemas como EchoStreams es una forma simplificada de ofrecer RAID con SSD NVMe. El resultado es que EchoStreams puede ofrecer un excelente rendimiento y latencia con menos complejidad y costo. Además, gracias a las características adicionales de Intel VMD, los clientes de EchoStreams obtienen una mejor capacidad de servicio del sistema con características como el intercambio en caliente de SSD NVMe, soporte ligero de unidad NVMe y RAID de arranque con configuración previa al arranque. Como se señaló, los casos de uso son variados, pero claramente existe un gran potencial para las CDN y otras que pueden beneficiarse de RAID de nivel empresarial a través de las interfaces de red y almacenamiento más rápidas ampliamente disponibles.

EchoStreams FlacheSAN1N10U-D5 Página del producto

Discutir esta revisión

Suscríbase al boletín de StorageReview