A Lenovo é líder de longa data no fornecimento de soluções para o mercado de computação de alto desempenho (HPC). As principais ofertas da Lenovo são bem conhecidas pelos usuários finais e administradores de data centers, mas a proeza HPC da Lenovo é talvez o segredo mais bem guardado. Bem, o segredo está em ser o maior fornecedor de supercomputadores do mundo (32% deles segundo dados mantidos pela 500 topo).
A Lenovo é líder de longa data no fornecimento de soluções para o mercado de computação de alto desempenho (HPC). As principais ofertas da Lenovo são bem conhecidas pelos usuários finais e administradores de data centers, mas a proeza HPC da Lenovo é talvez o segredo mais bem guardado. Bem, o segredo está em ser o maior fornecedor de supercomputadores do mundo (32% deles segundo dados mantidos pela 500 topo).
Essas vitórias massivas em HPC são impulsionadas fundamentalmente pelo entendimento íntimo da Lenovo sobre o espaço de HPC e pela disposição de arriscar para atender às necessidades do cliente. Como exatamente essa tomada de risco se traduz? Bem, cerca de uma década atrás, a Lenovo entregou um supercomputador refrigerado a líquido para o Centro de Supercomputação Leibniz em Munique, Alemanha. Esse evento ajudou a mudar a economia da supercomputação, especialmente em lugares como a Europa, onde o espaço em rack, o resfriamento e a energia são valiosos.
Lenovo Think System SR670 V2
Embora muita coisa tenha mudado na supercomputação desde então, a Lenovo continua inovando. No verão de 2018, a Lenovo lançou oficialmente Netuno, mostrando sua visão de data centers mais eficientes graças ao resfriamento líquido. Ao trazer o ThinkSystem SD650 para o mercado, a Lenovo demonstrou aos clientes de HPC como pode ser fácil obter refrigeração líquida para componentes em uma bandeja de 1U com suporte a 2x nós DWX (Neptune Direct Water Cooling) por bandeja. Até seis bandejas são suportadas no gabinete NeXtScale n1200 (6U). Dois anos depois, a Lenovo lançou o SD650-N V2, refrigeração líquida, CPUs Ice Lake, GPUs com soquete, DRAM, armazenamento e módulos de E/S. A implementação do trocador de calor Liquid to Air (L2A) no ThinkSystem SR670 V2 é um exemplo da engenharia avançada da Lenovo.
Lenovo ThinkSystem SD650 V2 com Tecnologia de refrigeração líquida Neptune™
Afinal, quem precisa de sistemas HPC?
Quem precisa de todo esse poder com as melhorias de desempenho em poder de processamento, inovações de armazenamento e memória?
Empresas de todos os tamanhos estão procurando maneiras mais eficientes de coletar e analisar dados para extrair inteligência de vários recursos diferentes na rede. Especialmente empresas focadas em programas intensivos de computação, como biologia molecular, finanças, rastreamento de mudanças climáticas globais, análise rápida de genes e imagens sísmicas. A HPC também está ganhando a atenção de um campo mais amplo de organizações, como as empresas que buscam uma vantagem no mercado e desejam investir em tecnologia que impactará a produtividade e o crescimento. HPC e AI, a base para os aplicativos mencionados anteriormente, estão cada vez mais alinhados, fornecendo novos caminhos para as organizações aproveitarem esses dados.
A necessidade de acesso imediato a dados agregados continua a impulsionar a demanda por esses sistemas HPC. Manter-se um passo à frente da concorrência é fundamental para o sucesso e a longevidade de uma organização. A HPC é fundamental na solução de problemas complexos para negócios, ciência e engenharia e tornou-se a base subjacente para inovações em ciência, pesquisa, varejo, AV e muito mais, além de impulsionar avanços em tecnologias que afetam a sociedade.
O crescimento explosivo de dados coletados de tecnologias como AI & M/L, IoT, pesquisa e serviços de transmissão ao vivo requer processamento em tempo real, que é mais do que um servidor típico pode suportar.
Outra força motriz por trás do crescimento da demanda por HPC é que os sistemas podem ser implantados na borda, na nuvem ou no local. A chave é processar os dados onde esses dados são criados e não ter que transferi-los para outro local remoto para processamento.
Lenovo ThinkSystem SR670 v2 com trocador de calor L2A
Uma consideração crítica ao selecionar uma plataforma HPC é a capacidade de expansão. Quando se trata de recursos computacionais maciços, mais é melhor. Os recursos de expansão para esses sistemas são cruciais, e a capacidade de criar grandes clusters de HPC pode significar sucesso ou falha, dependendo da capacidade de dimensionamento. A utilização de interconexões de alta velocidade e baixa latência e tecnologias de armazenamento mais recentes, como NVMe, acelerarão o resultado computacional. Os clusters podem ser construídos em um data center, nuvem ou modelo híbrido, oferecendo uma implantação flexível e escalável. O Lenovo ThinkSystem SR670 V2 é um desses sistemas.
Um servidor rico em GPU que atende aos requisitos de HPC
O Lenovo ThinkSystem SR670 V2 é um servidor de rack 3U rico em GPU que suporta oito GPUs de largura dupla, incluindo as GPUs NVIDIA A100 e A40 Tensor Core, e um modelo com NVIDIA HGX A100 4-GPU oferecido com NVLink e Lenovo Neptune híbrido liquid- resfriamento ao ar. O servidor é baseado na nova família de processadores escalonáveis Intel Xeon de terceira geração (anteriormente “Ice Lake”) e na mais recente série Intel Optane Persistent Memory 200.
O SR670 V2 oferece desempenho ideal para Inteligência Artificial (IA), Computação de Alto Desempenho (HPC) e cargas de trabalho gráficas em vários setores. Os setores de varejo, manufatura, serviços financeiros e saúde podem aproveitar o poder de processamento das GPUs no SR670 V2 para extrair insights mais significativos e impulsionar a inovação utilizando aprendizado de máquina (ML) e aprendizado profundo (DL).
Os métodos tradicionais de resfriamento a ar estão atingindo limites críticos. Aumentos na potência dos componentes, especialmente para CPU e GPU, resultaram em custos mais altos de energia e infraestrutura, sistemas ruidosos e pegadas de carbono elevadas. O modelo SR670 V2 emprega a tecnologia de refrigeração híbrida líquido-ar (L2A) Lenovo Neptune para combater esses desafios e dissipar o calor rapidamente. O calor das GPUs NVIDIA HGX A100 é removido por meio de um exclusivo trocador de calor líquido-ar de circuito fechado que oferece os benefícios do resfriamento líquido, como maior densidade, menor consumo de energia, operação silenciosa e maior desempenho sem adicionar encanamento.
As indústrias estão aproveitando a tecnologia de GPU
O SR670 V2 é construído em dois processadores Intel Xeon Scalable de 3ª geração projetados para suportar as mais recentes GPUs no portfólio de data center NVIDIA Ampere. O SR670 V2 oferece desempenho otimizado para carga de trabalho, seja utilizando visualização, renderização ou HPC e AI com uso intensivo de computação.
Os setores de varejo, manufatura, serviços financeiros e saúde estão aproveitando as GPUs para extrair insights mais significativos e impulsionar a inovação utilizando aprendizado de máquina (ML) e aprendizado profundo (DL). Aqui estão algumas maneiras pelas quais a computação acelerada utiliza GPUs em diferentes organizações:
- Visualização remota para equipes que trabalham em casa
- Renderização Ray Tracing para gráficos fotorrealistas
- Poderosa codificação e decodificação de vídeo
- Ensaios in silico e imunologia em Ciências da Vida
- Processamento de linguagem natural (NLP) para call centers
- Inspeção óptica automática (AOI) para controle de qualidade
- Visão computacional para a experiência do cliente no varejo
À medida que mais cargas de trabalho utilizam os recursos dos aceleradores, a demanda por GPUs aumenta. O ThinkSystem SR670 V2 oferece uma solução otimizada de nível empresarial para implantação de cargas de trabalho aceleradas de HPC e IA na produção, maximizando o desempenho do sistema.
Opções de configuração flexíveis
O design modular oferece flexibilidade máxima no SR670 V2. As opções de configuração incluem:
- Até oito GPUs de largura dupla com NVLink Bridge
- NVIDIA HGX™ A100 4-GPU com NVLink e refrigeração líquida híbrida Lenovo Neptune™
- Opção de rede de alta velocidade frontal ou traseira
- Escolha de armazenamento local de alta velocidade de 2.5″, 3.5″ e NVMe
O desempenho do ThinkSystem SR670 V2 é otimizado para sua carga de trabalho, visualização, renderização ou HPC e AI com uso intensivo de computação.
A GPU NVIDIA A100 Tensor Core oferece aceleração sem precedentes — em todas as escalas — para alimentar os data centers elásticos de maior desempenho do mundo para aplicativos de IA, análise de dados e HPC. O A100 pode ser dimensionado ou particionado com eficiência em sete instâncias de GPU isoladas. A GPU de várias instâncias (MIG) fornece uma plataforma unificada que permite que datacenters elásticos se ajustem dinamicamente às demandas de carga de trabalho em constante mudança. Um rack de 13 ThinkSystem SR670 V2s pode gerar até dois PFLOPS de potência computacional.
Construído nas mais recentes CPUs da família Intel® Xeon® Scalable e projetado para suportar GPUs de ponta, incluindo NVIDIA Tesla V100 e T4, o ThinkSystem SR670 V2 oferece desempenho acelerado otimizado para cargas de trabalho de IA e HPC.
Soluções que escalam
Seja apenas começando com IA ou passando para a produção, as soluções devem ser dimensionadas de acordo com as necessidades da organização. O ThinkSystem SR670 V2 pode ser usado em um ambiente de cluster usando malha de alta velocidade para expandir à medida que suas demandas de carga de trabalho aumentam.
Habilitado com o Lenovo Intelligent Computing Orchestration (LiCO), ele adiciona suporte para vários usuários e será dimensionado em um único ambiente de cluster. LiCO é uma plataforma poderosa que gerencia recursos de cluster para aplicativos HPC e AI.
O LiCO fornece fluxos de trabalho de IA e HPC e oferece suporte a várias estruturas de IA, incluindo TensorFlow, Caffe, Neon e MXNet, aproveitando um único cluster para diversos requisitos de carga de trabalho.
A progressão da inovação em todo o portfólio de HPC avançou com a mesma rapidez. Para organizações que ainda não estão prontas para mergulhar na refrigeração líquida total, o ThinkSystem SR670 V2 oferece uma flexibilidade impressionante.
Lenovo ThinkSystem SR670 V2 Configuração e especificações
A configurabilidade é o núcleo do apelo do ThinkSystem SR670 V2. Sua flexibilidade se concentra na computação densa de GPU, e a maior parte de seu volume físico é dedicada a GPUs modulares, sejam simples ou duplas ou NVIDIA SXM. As três configurações básicas são as seguintes.
Configuração 1 | Configuração 2 | Configuração 3 | |
Nº de GPUs | 4xSXM | 4x de largura dupla ou 8x de largura simples | 8x de largura dupla |
Suporte do Drive | 8 x 2.5 polegadas | 8 x 2.5 polegadas ou 4 x 3.5 polegadas | 6x E1.S |
As configurações ilustradas:
A tabela abaixo mostra as especificações completas do SR670 V2.
Componentes | Especificação |
Tipos de máquina | 7Z22 – 1 ano de garantia 7Z23 – 3 ano de garantia |
Fator de forma | Rack 3U |
Subcontratante | Dois processadores Intel Xeon Scalable de terceira geração (anteriormente codinome “Ice Lake”). Suporta processadores de até 40 núcleos, velocidades de núcleo de até 3.6 GHz e classificações de TDP de até 270 W. |
Chipset | Chipset Intel C621A “Lewisburg”, parte da plataforma codinome “Whitley”. |
Memória | 32 slots DIMM com dois processadores (16 slots DIMM por processador). Cada processador possui 8 canais de memória, com 2 DIMMs por canal (DPC). Lenovo TruDDR4 RDIMMs e 3DS RDIMMs são suportados. Os slots DIMM são compartilhados entre a memória padrão do sistema e a memória persistente. DIMMs operam em até 3200 MHz em 2 DPC. |
Memória persistente | Suporta até 16x módulos Intel Optane Persistent Memory 200 Series (8 por processador) instalados nos slots DIMM. A memória persistente (Pmem) é instalada em combinação com os DIMMs de memória do sistema. |
Memória máxima | Com RDIMMs: até 4 TB usando 32 x 128 GB 3DS RDIMMs Com memória persistente: até 4 TB usando 16 x 128 GB 3DS RDIMMs e 16 x módulos Pmem de 128 GB (1.5 TB por processador) |
Proteção de memória | ECC, SDDC (para DIMMs de memória baseados em x4), ADDDC (para DIMMs de memória baseados em x4, requer processadores Platinum ou Gold) e espelhamento de memória. |
Baias da unidade de disco | Unidades de 2.5 polegadas, 3.5 polegadas ou EDSFF, dependendo da configuração:
O servidor também oferece suporte a um adaptador M.2 interno com suporte para até duas unidades M.2. |
Armazenamento interno máximo |
|
Controlador de armazenamento |
|
Baias para unidades ópticas | Nenhuma unidade óptica interna. |
Baias da unidade de fita | Nenhuma unidade de backup interna. |
Interfaces de rede | Slot OCP 3.0 SFF com interface de host PCIe 4.0 x8 ou x16 flexível, disponível dependendo das configurações do servidor:
O slot OCP suporta uma variedade de adaptadores de 2 e 4 portas com conectividade de rede de 1 GbE, 10 GbE e 25 GbE. Uma porta pode opcionalmente ser compartilhada com o processador de gerenciamento XClarity Controller (XCC) para suporte a Wake-on-LAN e NC-SI. |
Slots de expansão PCI | Até 4x slots PCIe 4.0, dependendo da GPU e da configuração do compartimento de unidade selecionada. A seleção do slot é de:
|
Suporte para GPU | Suporta até 8 GPUs PCIe de largura dupla ou 4 GPUs SXM, dependendo da configuração:
Observação: configurações com GPUs de largura única, como NVIDIA A10, podem ser possíveis por meio de uma solicitação de lance especial. |
Portas | Frente:
Traseira:
Interno:
|
Resfriamento | 5 ventoinhas de 80 mm de simples troca de rotor duplo, dependendo da configuração. Os ventiladores são redundantes de rotor N+1, tolerando uma falha de rotor único. Um ventilador está integrado em cada fonte de alimentação. |
Fonte de energia | Até quatro fontes de alimentação CA redundantes hot-swap com certificação 80 PLUS Platinum. Opções de 1800 W ou 2400 W CA, suportando 220 V CA. Somente na China, as fontes de alimentação também suportam 240 V CC.
|
Vídeo | Gráficos G200 com 16 MB de memória com acelerador de hardware 2D, integrado ao XClarity Controller. A resolução máxima é 1920×1200 32bpp a 60Hz. |
Peças hot-swap | Drives e fontes de alimentação. |
Gestão de sistemas | Painel do operador com LEDs de status. Nos modelos de GPU SXM e 4-DW, Handset de diagnóstico externo com visor LCD (não disponível nos modelos de GPU 8-DW). Gerenciamento integrado XClarity Controller (XCC), entrega de infraestrutura centralizada XClarity Administrator, plug-ins XClarity Integrator e gerenciamento centralizado de energia do servidor XClarity Energy Manager. XClarity Controller Advanced e Enterprise opcional para habilitar funções de controle remoto. |
Os recursos de segurança | Chassis intrusion switch, senha de inicialização, senha do administrador, Trusted Platform Module (TPM), com suporte para TPM 2.0. Somente na China, Nationz TPM 2.0 opcional. |
Sistemas operacionais suportados | Microsoft Windows Server, Red Hat Enterprise Linux, SUSE Linux Enterprise Server, VMware ESXi. |
Garantia limitada | Unidade substituível pelo cliente de três ou um ano (dependendo do modelo) e garantia limitada no local com 9 × 5 no próximo dia útil (NBD). |
Serviço e suporte | Atualizações de serviço opcionais estão disponíveis nos Serviços Lenovo: tempo de resposta de 4 ou 2 horas, tempo de correção de 6 horas, extensão de garantia de 1 ou 2 anos, suporte de software para hardware Lenovo e alguns aplicativos de terceiros. |
Dimensões | Largura: 448 mm (17.6 pol.), Altura: 131 mm (5.2 pol.), Profundidade: 892 mm (35.1 pol.). |
Peso | Peso aproximado, dependendo da configuração selecionada:
|
As GPUs oferecem opções de desempenho de configuração significativas
O suporte de GPU é a variável mais significativa entre as configurações. As GPUs de largura única usam pistas PCIe x8 e escalam para a NVIDIA A10, enquanto as GPUs de largura dupla usam PCIe x16 e escalam para a NVIDIA A100. A configuração principal do SXM usa o NVIDIA HGX A100, que usa uma ponte NVIDIA NVLink (comunicação direta de GPU para GPU) para conectar suas quatro GPUs integradas. As configurações de GPU de largura dupla suportam NVLink, e o SR670 V2 também suporta o AMD Instinct MI210 de largura dupla.
A plataforma HGX A100 é a variante “Redstone” sem NVSwitch, com quatro GPUs SXM A100 em uma única placa. As variantes de 40 GB, 400 watts e 80 GB e 500 watts estão disponíveis. Notavelmente, o SR670 V2 emprega o resfriamento híbrido líquido-ar (L2A) Neptune da Lenovo com esta plataforma para um resfriamento mais silencioso e eficiente e menor consumo de energia. Uma placa fria é montada em cada GPU, através da qual quatro bombas redundantes de baixa pressão circulam o líquido. Um grande radiador único dissipa o calor. Outras configurações de GPU são refrigeradas a ar apenas.
As bombas de refrigeração individuais acima de cada GPU são visíveis na placa fria como parte da seção da marca Neptune. Tudo isso flui de volta através do radiador único para manter as temperaturas sob controle, mesmo sob cargas de pico.
Embora o resfriamento líquido tenha benefícios óbvios para manter as temperaturas mais baixas, muitos não percebem o impacto no desempenho que isso pode causar na velocidade do clock da GPU. Quando as GPUs estão sob alta carga com resfriamento a ar, elas podem atingir pontos de design térmico de pico, onde precisam acelerar o desempenho e diminuir a velocidade do clock para manter as temperaturas sob controle. O resfriamento líquido não tem esse problema, permitindo que as GPUs funcionem com mais força e rapidez, mantendo um perfil térmico consistente ao longo da carga de trabalho.
O gráfico abaixo mostra a diferença entre uma GPU refrigerada a ar e uma GPU refrigerada a líquido sob carga total. Quando o modelo refrigerado a ar começa a atingir as temperaturas máximas, a frequência da GPU diminui, enquanto a CPU refrigerada a líquido permanece na velocidade máxima de clock durante todo o tempo.
Para slots, as configurações básicas do SR670 V2 têm 2 slots de E/S PCIe 4.0 x16 frontais, embora o restante da frente seja configurável para as opções de unidade mencionadas acima. Todos suportam troca a quente.
- Modelo SXM – escolha de:
- 4 compartimentos de unidade NVMe hot-swap de 2.5 polegadas
- 8 compartimentos de unidade NVMe hot-swap de 2.5 polegadas
- Modelo de GPU 4-DW – escolha de:
- 8 compartimentos de unidade AnyBay hot-swap de 2.5 polegadas com suporte para unidades SAS, SATA ou NVMe
- 4 compartimentos de unidade hot-swap de 3.5 polegadas com suporte para HDDs SATA ou unidades SSDs (suporte para NVMe somente por meio de licitação especial)
- Modelo de GPU 8-DW:
- 6 baias de unidade NVMe hot-swap EDSFF E1.S
O SR670 V2 também oferece suporte a uma ou duas unidades de armazenamento ou inicialização SATA ou NVMe no formato M.2. O suporte a RAID é oferecido por meio de um controlador de hardware integrado.
Enquanto isso, o backplane é fixo, com quatro slots PCIe 4.0 x16 e um OCP 3.0. As quatro fontes de alimentação hot-swap redundantes do SR670 V2 também são visíveis na parte traseira. Eles vêm em opções de 1800 W ou 2400 W e possuem classificações 80 Plus Platinum.
Um link de fonte de alimentação diferente está incluído nos modelos SR670 V2 equipados com a configuração SXM, que fornece a seção frontal da GPU com um link de energia dedicado. Esses modelos contrastam fortemente com os modelos de GPU de carregamento por slot, que não incluem esse link de energia substancial da parte traseira do chassi.
O restante do hardware do SR670 V2 é igualmente impressionante e continua com seu tema de flexibilidade. Ele suporta até dois processadores Intel “Ice Lake” Xeon Scalable de terceira geração de 40 núcleos/80 threads, com um TDP de até 270 watts. Cada CPU possui 16 slots DDR4-3200 RDIMM; com RDIMMs de 128 GB, o teto de memória é de 4 TB. Dependendo da CPU, o SR670 V2 também suporta até 16 Memória Persistente Intel Série 200, instalado com memória regular do sistema. Com todo o hardware que o ThinkSystem SR670 V2 tem a oferecer, a Lenovo deu o melhor de si no layout de resfriamento para obter o máximo desempenho do sistema. Nem todos os sistemas permitem que todos os componentes operem com 100% de utilização sem estrangulamento, enquanto o SR670 V2 foi projetado para permitir exatamente isso.
Considerações Finais
A Lenovo está comprometida com o resfriamento líquido e aproveitou esse know-how para desenvolver coisas como o trocador de calor L2A. Como a densidade de energia continua a aumentar dentro dos servidores, os fornecedores precisam criar métodos criativos para remover a carga térmica dos componentes e passá-la para fora do sistema. Nem todos os clientes precisam ou desejam soluções completas de refrigeração líquida. A Lenovo, no entanto, pode fornecer soluções para atender às demandas de resfriamento do cliente com servidores refrigerados a ar, parcialmente refrigerados a água e totalmente refrigerados a água em seu portfólio.
A primeira geração do Neptune™ forneceu Resfriamento Líquido apenas para CPUs e memória. Além de CPUs e memória, o sistema Neptune Liquid Cooling da Lenovo foi expandido para incluir regulação de voltagem, armazenamento, PCIe e agora GPUs. A Lenovo até lançou uma fonte de alimentação refrigerada a líquido que elimina os ventiladores. Olhando para o futuro, a Lenovo vê o resfriamento líquido como a chave para lidar com o calor gerado pelas futuras gerações de CPUs e GPUs e a maneira de manter a densidade e a pegada com as quais os clientes corporativos se acostumaram.
Este relatório é patrocinado pela Lenovo. Todas as visões e opiniões expressas neste relatório são baseadas em nossa visão imparcial do(s) produto(s) em consideração.
Envolva-se com a StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | Facebook | TikTok | RSS feed