O Dell PowerEdge XE9680 é uma prova de inovação em computação empresarial, oferecendo aos clientes o máximo em flexibilidade de GPU.
O PowerEdge XE9680 representa a plataforma de infraestrutura de IA mais versátil da Dell até o momento. Ele combina um nó de computação 760U estilo PowerEdge R2 com uma gaveta de GPU 4U massiva. Este design 6U inovador combina o melhor da engenharia de servidores empresariais da Dell com densidade e flexibilidade de GPU sem precedentes.
Em seu núcleo, o XE9680 suporta processadores Intel Xeon Scalable duplos, oferecendo uma escolha entre a 5ª Geração com até 64 núcleos por CPU ou a 4ª Geração com até 56 núcleos. A capacidade de memória é substancial, suportando até 4 TB de memória DDR5 em 32 slots DIMM, rodando a até 5600 MT/s com os processadores mais recentes.
O que realmente diferencia o XE9680 são suas capacidades de GPU. A plataforma suporta oito GPUs de alta potência. As configurações disponíveis incluem HGX H200 (141 GB) e H100 (80 GB) da NVIDIA, Instinct MI300X (192 GB) da AMD e Gaudi3 (128 GB) da Intel. O recém-introduzido XE9680L variante suporta GPUs B200 de última geração da NVIDIA e resfriamento líquido direto, expandindo os limites em densidade e desempenho.
As configurações de armazenamento são igualmente flexíveis, oferecendo 8x drives NVMe/SAS/SATA de 2.5" ou 16x drives E3.S NVMe. O sistema pode ser equipado com a placa H965i NVMe PERC RAID da Dell, simplificando significativamente a redundância de armazenamento para grandes caches KV durante cargas de trabalho de inferência.
O fornecimento de energia é projetado para máxima confiabilidade. Seis fontes de alimentação totalizando 19200 W são configuradas em um arranjo redundante tolerante a falhas (FTR) 3+3. Quando duas ou mais PSUs falham, o sistema entra em um modo redundante tolerante a falhas em vez de desligar. Neste modo, o freio de energia da GPU é ativado, limitando os clocks da GPU para um quarto, resultando em aproximadamente um quinto do desempenho típico da GPU.
Essa escolha de design bem pensada é inestimável em ambientes de treinamento em larga escala, onde centenas ou milhares de GPUs trabalham em conjunto. Em vez de ter um nó completamente offline – o que exigiria reprogramar e repetir iterações de treinamento em outro nó – o sistema pode continuar operando com desempenho reduzido até a próxima janela de manutenção. Essa atenção aos detalhes no gerenciamento de energia ajuda a manter alto rendimento de treinamento de modelo (MFU) ao minimizar interrupções.
Os recursos de expansão são extensos, com até 10 slots PCIe Gen5 x16 full-height, half-length, dois dos quais suportam placas de maior potência além de 75 W. Essa abundância de conectividade PCIe permite várias configurações de rede, incluindo DPUs e SmartNICs, essenciais para a construção de infraestrutura de IA moderna.
Especificações completas:
Especificação | Detalhes |
---|---|
Subcontratante | Até dois processadores Intel® Xeon® Scalable de 5ª geração (64 núcleos por CPU) Até dois processadores Intel® Xeon® Scalable de 4ª geração (56 núcleos por CPU) |
Opções de GPU | XE9680: – NVIDIA HGX H200 (141 GB) SXM5 700 W – NVIDIA HGX H100 (80 GB) SXM5 700 W – AMD Instinct MI300X (192 GB) OAM 750 W – Intel Gaudi3 (128 GB) OAM 900 W |
Memória | 32 slots DIMM 5600 MT/s (5ª geração) 4800 MT/s (4ª geração) |
Armazenamento | Baías de tração dianteiras: 8x 2.5″ NVMe/SAS/SATA (máximo de 122.88 TB) 16x E3.S NVMe (máx. 122.88 TB) |
Controladores de estoque | Controladores Internos: PERC H965i (não compatível com Intel Gaudi3) Inicialização interna: Subsistema de armazenamento otimizado para inicialização (NVMe BOSS-N1): HWRAID 1, 2 x SSDs M.2 |
Slots PCIE | Slots PCIeAté 10 slots PCIe Gen5 x16 (8 slots com Intel Gaudi3) |
Network | 1x OCP 3.0 (opcional) 2x 1GbE LOM |
Fontes de Alimentação | 3200W Titânio (277 VCA) 2800W Titânio (200-240 VCA) |
Dimensões | Altura: 10.36 ″ (263.20mm) Largura: 18.97 ″ (482.00mm) Profundidade: 39.71″ (1008.77 mm) com moldura |
Peso | Até 251.44 libras (114.05 kg) |
Fator de Forma | Servidor de rack 6U |
Gestão de Sistemas | Incorporado / No servidor: iDRAC9 iDRAC direto API RESTful do iDRAC com o módulo de serviço RedfishiDRACConsoles: Plug-in CloudIQ para PowerEdge OpenManage Enterprise Plug-in OpenManage Power Manager Plug-in do Serviço OpenManage Ferramentas do plugin OpenManage Update Manager: Atualização do sistema Dell Gerenciador de repositório da Dell Catálogos Empresariais API iDRAC RESTful com Redfish IPMI Integrações RACADM CLIOpenManage: BMC Visão Verdadeira Integração OpenManage com ServiceNow |
Segurança | Firmware assinado criptograficamente Criptografia de dados em repouso (SEDs com gerenciamento de chave local ou externa) seguro Bota Verificação de componentes protegidos (verificação de integridade de hardware) Secure Erase Raiz de confiança de silício Bloqueio do sistema (requer iDRAC9 Enterprise ou Datacenter) |
Resfriamento | Refrigerado a ar |
Construção e design do Dell PowerEdge XE9680
O PowerEdge XE9680 é uma peça imponente de hardware, medindo 10.36 polegadas (263.20 mm) de altura, 18.97 polegadas (482.00 mm) de largura e 39.71 polegadas (1008.77 mm) de profundidade com sua moldura anexada. Quando totalmente carregado, ele pesa 251.44 libras (114.05 kg). A seleção da GPU terá a palavra final sobre o peso, com o modelo NVIDIA H100/H200 chegando a 238 libras, enquanto a unidade AMD MI300X inclina a balança para 251 libras.
Este foi o primeiro servidor que exigiu um pensamento cuidadoso para carregar corretamente em nosso ambiente de teste. Quando você considera o peso do servidor e o número de pessoas necessárias para montar o hardware, há alguma margem de manobra para ir além dos limites, mas em um certo ponto, uma ou duas pessoas não estão levantando-o sozinhas. A Dell é gentil o suficiente para lhe dar uma "mesa elevatória" para ajudar você a entender como esta plataforma se encaixa. Para todos aqueles que estão se perguntando, Kevin carregou o XE9680 no rack sozinho.
Peso do chassi | Descrição |
---|---|
40 libras – 70 libras | Recomende duas pessoas para levantar. |
70 libras – 120 libras | Recomende três pessoas para levantar. |
≥ 121 libras | É necessário um elevador de servidor. |
Apesar de sua complexidade e da recomendação da Dell para técnicos de serviço especializados, o XE9680 apresenta elementos de serviço notavelmente fáceis de usar. Os painéis do servidor incluem instruções de serviço detalhadas e gráficos claros, tornando os procedimentos de manutenção surpreendentemente acessíveis para a equipe de TI experiente. Esses guias visuais provaram ser inestimáveis durante nosso tempo prático com o sistema, permitindo-nos fazer a manutenção de vários componentes com confiança.
Após abrir a tampa do PowerEdge XE9680, depois de passar pelos vários cabos de energia da pequena subestação de energia na parte superior, ele se parece muito com um PowerEdge R760. Nossa unidade foi alimentada por dois processadores Intel Xeon Platinum 8468, cada um com 48 núcleos a 2.1 GHz. Cada processador oferece 80 pistas PCIe, que fluem por vários switches PCIe nesta unidade para dar suporte às GPUs, NICs e outros hardwares carregados no XE9680.
Um dos recursos de engenharia mais impressionantes é o design da PCIe Switch Board (PSB). Essas placas fornecem conectividade para até 10 placas PCIe adicionais de altura total e meio comprimento (duas das quais podem exceder o consumo de energia de 75 W) e se integram diretamente com a placa base da GPU. Essa integração direta habilita a tecnologia GPU-direct, permitindo que SSDs e placas de rede se comuniquem diretamente com as GPUs, ignorando a CPU e reduzindo a latência para cargas de trabalho de IA intensivas em E/S.
Cada slot de expansão suporta uma interface PCIe Gen5 x16 completa, incluindo os dois slots inferiores na extrema esquerda e direita do layout. Enquanto os oito slots superiores são conectados por meio de seu próprio PSB, os dois slots inferiores se conectam diretamente à PCIe Base Board (PBB). Esses dois slots também suportam placas de alta potência. Além disso, deve-se observar que o layout PCIe varia ligeiramente dependendo do tipo de GPU escolhido para o PowerEdge XE9680. Os modelos equipados com AMD não suportam SmartNIC/DPUs, e os modelos Intel Gaudi3 têm dois slots bloqueados devido a problemas de fluxo de ar.
O resfriamento é outra área em que a expertise em engenharia da Dell brilha. O sistema emprega até 16 ventiladores de alto desempenho de nível ouro — seis na bandeja do meio e dez na traseira. O PowerEdge XE9680 suporta uma ampla gama de cenários de instalação, com temperaturas ambientes variando de 10 a 35 °C (30 °C com as GPUs Intel Gaudi3). Em plena inclinação, o servidor move impressionantes 1,200 CFM para o corredor quente.
Esta solução de resfriamento robusta lida até mesmo com as cargas térmicas mais exigentes, incluindo as GPUs AMD MI300X, Intel Gaudi3 ou NVIDIA H100, mantendo temperaturas operacionais ideais. O PowerEdge XE9680 canta bastante sob carga em termos de saída de ruído. A Dell oferece uma folha de especificações acústicas completa para o XE9680 em diferentes situações, mas é bem fácil dizer que será uma plataforma barulhenta sob carga.
Gestão de Sistemas
Os recursos de gerenciamento do XE9680 são construídos em torno do iDRAC9 comprovado pela empresa da Dell, que fornece gerenciamento e monitoramento abrangentes do ciclo de vida do servidor. Esta iteração do iDRAC traz vários recursos otimizados para IA, incluindo telemetria detalhada da GPU, análise de consumo de energia e monitoramento térmico extensivo projetado para cargas de trabalho de IA de alta densidade.
A pilha de gerenciamento da plataforma é particularmente notável para implantações de infraestrutura de IA. Por meio da API RESTful do iDRAC9 com suporte Redfish, as organizações podem monitorar e gerenciar programaticamente a utilização da GPU, largura de banda da memória e condições térmicas – métricas críticas para manter o desempenho ideal de treinamento e inferência de IA. A integração do sistema com o OpenManage Enterprise permite o gerenciamento de toda a frota de vários XE9680s por meio de um console unificado, o que é essencial para clusters de IA em larga escala.
Segurança e conformidade são elementos fundamentais da arquitetura de gerenciamento. A plataforma implementa o Silicon Root of Trust e o Secure Component Verification, garantindo a integridade do hardware desde a inicialização até a operação. Esses recursos são especialmente valiosos ao executar cargas de trabalho de IA sensíveis ou lidar com pesos de modelos proprietários.
O recurso de análise preditiva de falhas, alimentado pela integração do CloudIQ, usa aprendizado de máquina para prever possíveis problemas de hardware antes que eles afetem as cargas de trabalho. Essa abordagem proativa é especialmente crucial para trabalhos de treinamento de IA de longa duração, onde o tempo de inatividade inesperado pode resultar em dias de computação perdida. Quando combinado com o serviço ProSupport Plus da Dell, esse recurso preditivo aciona a criação automática de casos e o despacho de peças, geralmente resultando em manutenção preventiva antes que ocorra a degradação do sistema.
Para organizações que exigem integração com ferramentas de gerenciamento existentes, o XE9680 oferece suporte a várias estruturas de gerenciamento por meio de integrações OpenManage, incluindo ServiceNow e BMC TrueSight, permitindo incorporação perfeita em fluxos de trabalho de gerenciamento de serviços de TI estabelecidos.
A interface iDRAC9 fornece monitoramento detalhado em tempo real de componentes críticos por meio de um painel intuitivo. O monitoramento de GPU exibe métricas abrangentes, incluindo temperatura, consumo de energia e taxas de utilização em todos os oito aceleradores, essenciais para otimizar a distribuição da carga de trabalho de IA.
A interface de monitoramento de armazenamento oferece visibilidade instantânea da integridade da unidade, temperatura e métricas de desempenho em todo o array NVMe, o que é particularmente valioso ao gerenciar caches de inferência de alto rendimento e conjuntos de dados de treinamento.
Memória, Armazenamento e Escala
As oito GPUs AMD MI300X dentro do Dell PowerEdge XE9680 representam um salto significativo na capacidade de memória da GPU, oferecendo 192 GB de memória HBM3 por placa, em comparação com os 200 GB do NVIDIA H141. Esse aumento de 36% na capacidade de memória não é apenas um número em uma folha de especificações – é essencial para a implantação de modelos de linguagem grandes.
Esse enorme conjunto de memória, juntamente com a largura de banda de memória de 300 TB/s do MI5.3X, permite que as organizações executem várias instâncias de modelos menores ou particionem modelos maiores entre GPUs, mantendo alto rendimento e baixa latência.
Para colocar isso em perspectiva, o modelo Llama 3.1 405B da Meta, que requer mais de 1 TB de VRAM no BF16, pode ser confortavelmente distribuído em um único XE9680 com GPUs MI300X sem quantização e comprimento de contexto completo de 128k. Isso elimina a perda potencial de qualidade associada às técnicas de quantização e permite mais Tokens/Segundo em comparação a ter o modelo distribuído em dois servidores.
Para maximizar nossa pegada de armazenamento, usamos o Solidigm 61.44 TB drives para servir como uma extensão sofisticada para a memória, preenchendo a lacuna entre a memória GPU de alta velocidade e o armazenamento tradicional. Os SSDs se destacam no armazenamento de pares de cache de chave-valor durante a inferência, estendendo efetivamente a capacidade de memória da GPU para gerações de contexto longo. Sua capacidade massiva e desempenho NVMe os tornam ideais para acesso rápido ao peso do modelo, permitindo troca de modelo eficiente e inicializações a quente.
Em aplicações como a implantação do Metrum AI que detalhamos abaixo, os SSDs desempenham uma função dupla como backend de armazenamento para bancos de dados vetoriais, fornecendo o desempenho necessário para pesquisas de similaridade em tempo real, mantendo ao mesmo tempo a capacidade de amplo armazenamento de incorporação.
O valor dessas unidades de alta capacidade se estende além da inferência aos fluxos de trabalho de treinamento. Elas fornecem armazenamento local ideal para enfileirar lotes de treinamento, reduzindo a sobrecarga da rede ao manter os dados mais próximos dos recursos de computação. Durante o treinamento, essas unidades se destacam no armazenamento de pontos de verificação do modelo localmente, o que é essencial para manter o progresso do treinamento e permitir uma recuperação rápida. Essa estratégia de armazenamento local também ajuda a otimizar a utilização da rede ao reduzir o tráfego imediato da rede após cada camada e lote processados.
Embora a capacidade de 61.44 TB em oito baias no XE9680 pareça promissora, há muito mais capacidade chegando. Com Unidade de 122.88 TB recém-anunciada pela Solidigm, a densidade de armazenamento no XE pode ser duplicada para quase um petabyte para otimizações de treinamento adicionais e caches de inferência de vida útil mais longa.
Metrum AI Healthcare Assistant – Revolucionando o atendimento ao paciente
O setor de saúde enfrenta consistentemente um desafio no gerenciamento de documentação e gerenciamento de registros de pacientes que consomem muito tempo, o que frequentemente prejudica o atendimento direto ao paciente. O Healthcare Assistant da Metrum AI, implantado em servidores Dell PowerEdge XE9680 com aceleradores AMD, exemplifica como a infraestrutura avançada de IA pode transformar fluxos de trabalho de saúde, aumentando a eficiência e melhorando os resultados dos pacientes.
O sistema utiliza o Llama 3.1 70B Instruct como seu modelo de linguagem principal, renomado por sua compreensão de contextos médicos. Isso permite que ele processe dados complexos de pacientes facilmente. Este modelo de linguagem é pareado com o modelo de incorporação gte-v1.5 e Milvus Vector DB, fornecendo uma base robusta para processamento de linguagem natural e compreensão contextual essencial para lidar com dados médicos.
O Healthcare Assistant da Metrum AI também inclui uma abordagem multimodal que incorpora o HistoGPT para análise de imagens histopatológicas e o Whisper da OpenAI para transcrição em tempo real de notas médicas. Juntos, esses modelos simplificam os fluxos de trabalho clínicos, permitindo que os médicos falem naturalmente enquanto o sistema transcreve, categoriza e integra informações em registros de pacientes em tempo real.
A Metrum AI reconhece que, embora os dados individuais dos pacientes possam ser relativamente pequenos, as demandas combinadas de armazenamento de hospitais de alto tráfego podem aumentar para centenas de terabytes. O Dell PowerEdge XE9680 pode resolver isso com seu armazenamento NVMe integrado local. Nossa configuração oferece oito compartimentos de armazenamento U.2.5 NVMe de 2″ operando em velocidades PCIe Gen4. Enquanto testamos o XE9680 com SSDs Soldigim D61.44-P5 QLC de 5336 TB, essa capacidade pode ser ainda mais escalável. A Soldigim lançou recentemente seu novo Modelos QLC D5-P5336 122.88 TB, o que dobra a capacidade de seus já enormes SSDs, mantendo o mesmo desempenho.
A Metrum forneceu estimativas de como os dados do paciente são convertidos ao longo do tempo em diferentes cenários. Quando você calcula isso em capacidade total de armazenamento, pode ver quantos pacientes adicionais uma unidade poderia suportar usando os SSDs de maior capacidade. Tomando a pegada de dados estimada por paciente e indo contra a capacidade utilizável para cada SSD (57 TB para o SSD de 61 TB e 114 TB para o SSD de 122 TB), podemos ver que ter SSDs densos aumenta muito o que você pode armazenar no servidor de forma significativa por ano.
Estimativa anual total por paciente | Notas | Armazenamento estimado | Pacientes por SSD de 61 TB | Pacientes por SSD de 122 TB |
---|---|---|---|---|
Necessidades de armazenamento aprimoradas (imagens/variantes DICOM, ampliações, cópias processadas, transcrições de áudio, registros detalhados) | Inclui várias cópias de imagens, transcrições de áudio e registros | ~ 8.4 GB | 6,786 | 13,571 |
Cenário de alto armazenamento (processamento pesado, visitas frequentes) | Visitas frequentes, altos requisitos de processamento de imagem | ~ 10.5 GB | 5,428 | 10,857 |
Embora as estimativas iniciais de 1 ano pareçam bem altas, é importante observar que os dados do paciente não são estáticos. Você terá novos dados capturados e novas visitas agendadas, aumentando a demanda por armazenamento. É aqui que o armazenamento desempenha um papel significativo no espaço de imagens médicas. A capacidade de armazenamento adicional afeta diretamente quantos pacientes uma solução pode efetivamente suportar.
Estimativa total de armazenamento de 10 anos por paciente | Notas | Armazenamento estimado | Pacientes por SSD de 61 TB | Pacientes por SSD de 122 TB |
---|---|---|---|---|
Cenário aprimorado (várias cópias, registros detalhados, áudio, aumentos) | Registros expandidos, imagens frequentes e processamento | ~ 84 GB | 679 | 1,357 |
Cenário Alto (Processamento Pesado, Histórico Abrangente) | Necessidades máximas de processamento e armazenamento ao longo de 10 anos | ~ 105 GB | 543 | 1,086 |
O Dell PowerEdge XE9680, equipado com aceleradores AMD MI300X e integrado ao Healthcare Assistant da Metrum AI, fornece uma solução escalável e eficiente para provedores de saúde. Ao automatizar tarefas demoradas e permitir acesso rápido a insights críticos, essa configuração permite que os médicos se concentrem mais no atendimento ao paciente enquanto gerenciam as crescentes demandas. Por meio da integração perfeita de componentes de IA em modalidades de linguagem, imagem e voz, o Healthcare Assistant representa um avanço significativo em soluções de saúde orientadas por IA, reduzindo encargos administrativos e melhorando os resultados gerais do paciente.
Conclusão
No cenário em evolução da IA empresarial, o Dell PowerEdge XE9680 define um novo padrão, demonstrando como o hardware desenvolvido para esse fim pode revolucionar vários setores. A implementação do Metrum AI Healthcare Assistant mostra uma das inúmeras possibilidades — imagine instituições financeiras executando modelos complexos de análise de risco em tempo real ou laboratórios de pesquisa processando vastos conjuntos de dados para descoberta de medicamentos, tudo alimentado por esse sistema notável.
O XE9680 oferece versatilidade excepcional em opções de GPU, desde H100s da NVIDIA até MI300X da AMD e Gaudi3 da Intel. Essa flexibilidade, combinada com sua robusta capacidade de memória, opções de armazenamento e soluções de resfriamento inovadoras, o torna mais do que apenas um servidor de IA — é uma plataforma de computação empresarial completa, capaz de lidar com as cargas de trabalho mais exigentes em vários aplicativos, seja no data center ou no consultório médico.
De uma perspectiva de armazenamento, o servidor tem apenas oito baias NVMe, mas graças à Solidigm, podemos usar seus SSDs de 61.44 TB para obter quase meio petabyte no sistema como espaço de trabalho para o assistente de saúde que detalhamos acima. Se isso não for suficiente, a Solidigm acaba de anunciar que dobrou a capacidade do D5-P5336 para 122.88 TB, o que significa que sistemas como esse podem acomodar aproximadamente um petabyte de armazenamento flash adjacente ao seu acelerador, permitindo cargas de trabalho de IA eficientes.
A engenharia da Dell brilha em todos os aspectos do XE9680, desde seus recursos de gerenciamento de energia bem pensados até sua facilidade de manutenção amigável. A capacidade da plataforma de manter a operação mesmo durante falhas parciais de fornecimento de energia demonstra o profundo entendimento da Dell sobre os requisitos de IA, onde a confiabilidade do sistema e a operação contínua são primordiais.
Apoiado pela infraestrutura de suporte abrangente da Dell e pelo compromisso com o avanço dos recursos de IA por meio de várias iniciativas, o PowerEdge XE9680 é uma prova da inovação em computação empresarial. Graças à sua combinação de poder computacional bruto, flexibilidade arquitetônica e confiabilidade de nível empresarial, ele recebeu um prêmio renovado de Melhor de 2024.
Envolva-se com a StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed
Esta análise foi coautorada por Kevin O'Brien e Divyansh Jain