Inicio Empresa Edge Inferencing se está volviendo serio gracias al nuevo hardware

Edge Inferencing se está volviendo serio gracias al nuevo hardware

by Brian Beeler

La tecnología se mueve en ciclos, y ningún ciclo es más evidente en este momento que el énfasis en la IA en el perímetro. En particular, estamos encontrando un cambio masivo a la inferencia de borde. NVIDIA es una gran parte de este impulso, ya que desea impulsar la adopción de sus GPU fuera del centro de datos. Aún así, el hecho es que las empresas necesitan tomar más decisiones con mayor rapidez, por lo que la infraestructura de IA debe acercarse a los datos.

La tecnología se mueve en ciclos, y ningún ciclo es más evidente en este momento que el énfasis en la IA en el perímetro. En particular, estamos encontrando un cambio masivo a la inferencia de borde. NVIDIA es una gran parte de este impulso, ya que desea impulsar la adopción de sus GPU fuera del centro de datos. Aún así, el hecho es que las empresas necesitan tomar más decisiones con mayor rapidez, por lo que la infraestructura de IA debe acercarse a los datos.

inferencia de borde gpus a2 con t4

¿Recuerda Hub-and-Spoke?

En los "viejos tiempos", hablábamos sobre la ventaja en términos de creación de datos y cómo devolver esos datos al centro de datos de manera rápida y eficiente empleando la metodología tradicional de hub-and-spoke. Ese diseño dio paso al diseño jerárquico, basado en el núcleo, el acceso y la distribución con mucha redundancia y hardware y el único propósito de devolver los datos al centro de datos principal. Todos los datos recopilados en el borde solo para ser transportados de vuelta al centro de datos principal para su procesamiento y luego enviados de vuelta a los dispositivos del borde demostraron ser ineficientes, costosos y lentos.

Así que tal vez ese diseño hub-and-spoke no era tan malo después de todo. Con el impulso para ofrecer más inteligencia en el borde con IA y la interrupción de la computación en la nube, parece que el diseño está afectando significativamente el diseño de la red, las implementaciones del borde y el lugar donde se procesan los datos. De hecho, este año HPE Discover La conferencia tenía un eslogan que habría sido muy familiar en cualquier año anterior a la moda de la nube si simplemente cambiara el núcleo por la nube, "La conferencia de Edge-to-Cloud".

Impulso de salto al borde

HPE no fue el único proveedor que se dio cuenta de la importancia de la computación del borde a la nube para la industria; Dell Technologies presentó una historia similar durante el evento Dell Technologies World. IBM, Lenovo, NetApp y Supermicro también han expresado la necesidad de hacer más en el perímetro mientras utilizan los recursos de la nube de manera más efectiva.

¿Qué está impulsando el enfoque láser de la informática perimetral? Los clientes están generando volúmenes de datos en el borde recopilados de sensores, dispositivos IoT y recopilaciones de datos de vehículos autónomos. La proximidad a los datos en la fuente brindará beneficios comerciales, incluidos conocimientos más rápidos con predicciones precisas y tiempos de respuesta más rápidos con una mejor utilización del ancho de banda. La inferencia de IA en el borde (inteligencia procesable que utiliza técnicas de IA) mejora el rendimiento, reduce el tiempo (tiempo de inferencia) y reduce la dependencia de la conectividad de la red, lo que en última instancia mejora el resultado final del negocio.

¿Por qué no hacer Edge Inferencing en la nube?

¿Por qué no se puede realizar la inferencia perimetral en la nube? Puede, y para las aplicaciones que no son sensibles al tiempo y no se consideran críticas, entonces la inferencia de IA en la nube podría ser la solución. Sin embargo, la inferencia en tiempo real tiene muchos desafíos técnicos, siendo la latencia el principal de ellos. Además, con el crecimiento continuo de los dispositivos IoT y las aplicaciones asociadas que requieren procesamiento en el borde, puede que no sea factible tener una conexión a la nube de alta velocidad disponible para todos los dispositivos.

Edge computing presenta sus propios desafíos que incluyen soporte en el sitio, seguridad física y de aplicaciones, y espacio limitado que conduce a un almacenamiento limitado. Los servidores perimetrales de hoy en día brindan la potencia informática adecuada para las cargas de trabajo perimetrales tradicionales, con GPU que agregan más potencia sin mayor complejidad.

Crecimiento de opciones de borde

Curiosamente, los proveedores de sistemas más pequeños han dominado principalmente el mercado de infraestructura de borde. Supermicro, por ejemplo, ha estado hablando de 5G y centros de datos en postes telefónicos durante años, y Advantech y muchos otros proveedores de servidores especializados han estado haciendo lo mismo. Pero a medida que las GPU han mejorado y, lo que es más importante, el software que las respalda, toda la noción de IA en el perímetro se vuelve más real.

tarjeta nvidia a2

Recientemente hemos visto esta transición en nuestro laboratorio de diferentes maneras. En primer lugar, los nuevos diseños de servidores incorporan las GPU de bajo consumo y ranura única de NVIDIA, como la A2 y la siempre popular T4. Recientemente tanto Lenovo como Supermicro nos han enviado servidores para evaluar que tienen integradas estas GPUs, y el rendimiento ha sido impresionante.

inferencia de borde supermicroSuperMicro IoT SuperServidor SYS-210SE-31A con NVIDIA T4

En segundo lugar, hay un énfasis significativo por parte de los proveedores de infraestructura para ofrecer soluciones de vanguardia con métricas vinculadas directamente a los elementos básicos del centro de datos, como baja latencia y seguridad. Recientemente analizamos algunos de estos casos de uso con el Dell PowerVault ME5. Aunque se presenta como una solución de almacenamiento para PYMES, el ME5 genera mucho interés para los casos de uso perimetral debido a su relación costo/rendimiento.

Sin embargo, en última instancia, la historia de la inferencia de borde es bastante simple. Todo se reduce a la capacidad de la GPU para procesar datos, a menudo sobre la marcha. Hemos estado trabajando para expandir nuestras pruebas para tener una mejor idea de cómo estos nuevos servidores y GPU pueden funcionar para la función de inferencia perimetral. Específicamente, analizamos cargas de trabajo perimetrales populares, como el reconocimiento de imágenes y los modelos de procesamiento de lenguaje natural.

tarjeta gráfica nvidia t4

Fondo de prueba

Estamos trabajando con la suite de referencia MLPerf Inference: Edge. Este conjunto de herramientas compara el rendimiento de la inferencia para modelos DL populares en varios escenarios perimetrales del mundo real. En nuestras pruebas, tenemos números para el modelo de clasificación de imágenes ResNet50 y el modelo BERT-Large NLP para tareas de preguntas y respuestas. Ambos se ejecutan en configuraciones sin conexión y SingleStream.

El escenario sin conexión evalúa el rendimiento de la inferencia en un "modo por lotes", cuando todos los datos de prueba están disponibles de inmediato y la latencia no es una consideración. En esta tarea, el script de inferencia puede procesar datos de prueba en cualquier orden y el objetivo es maximizar la cantidad de consultas por segundo (QPS=rendimiento). Cuanto mayor sea el número de QPS, mejor.

La configuración de Single Stream, por el contrario, procesa una muestra de prueba a la vez. Una vez que se realiza la inferencia en una sola entrada (en el caso de ResNet50, la entrada es una sola imagen), se mide la latencia y la siguiente muestra se pone a disposición de la herramienta de inferencia. El objetivo es minimizar la latencia para procesar cada consulta; cuanto menor sea la latencia, mejor. La latencia del percentil 90 del flujo de consultas se captura como la métrica de destino por razones de brevedad.

La imagen de abajo es de un Blog de NVIDIA post sobre MLPerf inference 0.5, que visualiza muy bien los escenarios. Puede leer más sobre los diversos escenarios en el original Documento de inferencia de MLPerf aquí.

Inferencia perimetral: Lenovo ThinkEdge SE450

Después de revisar la Think Edge SE450, trabajamos con Lenovo para ejecutar MLPerf en NVIDIA A2 y T4 en el sistema. El objetivo era tener una idea de lo que podría hacer el SE450 con una sola GPU. Cabe señalar que el sistema puede admitir hasta cuatro de las GPU NVIDIA de bajo consumo, y es lógico tomar estos números y extrapolarlos a la cantidad de tarjetas deseadas.

Lenovo ThinkEdge SE450 - Puertos frontales

Para esta prueba, trabajamos directamente con Lenovo, probando las diversas configuraciones en nuestro laboratorio con NVIDIA A2 y T4. Con MLPerf, los proveedores tienen un arnés de prueba específico que se ha ajustado para su plataforma particular. Usamos el arnés de prueba de Lenovo para esta evaluación comparativa de inferencia de borde para tener una idea de dónde salen estas populares GPU.

Los resultados de las pruebas para A2 y T4 en el SE450 en nuestro laboratorio:

NVIDIA A2 (TDP de 40-60 W) NVIDIA T4 (TDP de 70W)
ResNet50 flujo único latencia de 0.714 ms 0.867 latencia
ResNet50 sin conexión 3,032.18 muestras/s 5,576.01 muestras/s
BERT flujo único latencia de 8.986 ms latencia de 8.527 ms
BERT Desconectado 244.213 muestras/s 392.285 muestras/s

Curiosamente, a NVIDIA T4 le fue muy bien en todo momento, lo que sorprende a algunos basándose únicamente en su edad. El perfil de rendimiento del T4 es una razón bastante evidente por la que el T4 sigue siendo muy popular. Dicho esto, el A2 tiene una ventaja de latencia significativa sobre el T4 en la inferencia de imágenes en tiempo real.

En última instancia, la decisión sobre la GPU se ajusta a la tarea específica en cuestión. La NVIDIA T4 más antigua consume más energía (70 W) y usa una ranura PCIe Gen3 x16, mientras que la A2 más nueva está diseñada para funcionar con menos energía (40-60 W) y usa una ranura PCIe Gen4 x8. A medida que las organizaciones comprendan mejor lo que le piden a su infraestructura en el borde, los resultados serán más significativos y los proyectos de inferencia en el borde tendrán más probabilidades de éxito.

Conclusión

Los proveedores están compitiendo para desarrollar servidores más pequeños, más rápidos y más resistentes para el mercado perimetral. Las organizaciones, desde el comercio minorista hasta las fábricas y el cuidado de la salud, claman por obtener información más rápida sobre los datos recopilados en la fuente. Mejorar el tiempo de inferencia, reducir la latencia, con opciones para mejorar el rendimiento y utilizar tecnología emergente separará rápidamente a los ganadores de los perdedores.

inferencia de borde nvidia a2 y t4

El mercado perimetral no se detiene a medida que las organizaciones encuentran nuevas formas de utilizar los conocimientos recopilados a partir del número cada vez mayor de dispositivos IoT. Nuestro equipo ve una gran oportunidad para aquellos que pueden moverse rápidamente en sus respectivas industrias para aprovechar la IA en el perímetro, que incluye este caso de uso de inferencia perimetral.

Esperamos que los principales actores de la infraestructura de TI respondan con soluciones innovadoras para este caso de uso específico durante el próximo año. Además, y quizás lo más importante, esperamos ver muchos avances en el software para ayudar a democratizar el uso de GPU en estos casos de uso de borde. Para que esta tecnología sea transformadora, debe ser más fácil de implementar de lo que es hoy. Dado el trabajo que estamos viendo no solo de NVIDIA sino también de compañías de software como vaniq, Viso.ai, y muchos otros, somos optimistas de que más organizaciones puedan dar vida a esta tecnología.

Interactuar con StorageReview

Boletín | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | Facebook | RSS Feed