ArmazenamentoReview.com

AMD Instinct MI350P: Inferência de IA PCIe empresarial retorna aos servidores padrão

AI  ◇  Empreendimento

A AMD anunciou o Instinct MI350P, um acelerador PCIe voltado para empresas que desejam inferência de IA local sem precisar reconstruir seu data center. A placa possui um design de dois slots, altura e comprimento totais, projetada para servidores padrão com refrigeração a ar. Esta é também a primeira vez em quase quatro anos que a AMD coloca um chip Instinct de última geração em um formato compatível com servidores convencionais.

AMD Instinct MI350P

A linha PCIe Instinct praticamente desapareceu após o lançamento do MI210 no início de 2022. Todas as gerações seguintes (MI300X, MI325X e o OAM MI350X) consistiram em módulos OAM com soquete em uma placa-mãe universal, exigindo um chassi específico com alimentação e fluxo de ar suficientes para oito aceleradores de 1,000 W em uma única bandeja. Isso funciona para hiperescaladores que compram GPUs em racks. Não funciona para empresas que desejam inferência local, mas não podem ou não querem investir em um rack de IA personalizado. O MI350P preenche essa lacuna e, no momento, a NVIDIA não possui uma placa PCIe para servidores de ponta na mesma categoria, então a AMD domina o segmento por enquanto.

Hardware: MI350P vs. MI350X OAM

O MI350P não é um MI350X selecionado. A AMD projetou um chip menor para ele. O MI350X possui dois dies de E/S, cada um com quatro dies de complexo acelerador (XCDs), totalizando oito XCDs e 256 unidades de computação. O MI350P possui um único die de E/S com quatro XCDs e 128 unidades de computação, metade do silício, operando com o mesmo clock máximo de 2.2 GHz que seu irmão maior. A memória segue o mesmo padrão: quatro stacks HBM3E em vez de oito; um barramento de 4,096 bits em vez de um de 8,192 bits; e 144 GB a 4 TB/s em vez de 288 GB a 8 TB/s.

Arquitetura AMD Instinct MI350P

O desempenho máximo de computação também cai pela metade. A MI350P atinge um pico de 4,600 TFLOPS em MXFP4 contra 9.2 PFLOPS da MI350X, e 2,300 TFLOPS em FP8 contra 4.6 PFLOPS. BF16, FP16 e o ​​restante da pilha de precisão escalam da mesma forma. É revigorante ver a AMD publicar os números reais de desempenho juntamente com os números de pico. Os valores reais são 2,299 TFLOPS em MXFP4, 1,529 TFLOPS em FP8 e 713 TFLOPS em BF16. Esses números refletem o que a placa realmente pode fazer dentro de um limite de 600W, onde as limitações de largura de banda elétrica e de memória reduzem os picos teóricos.

Analisamos a plataforma MI350X através do programa Jumpstart da Supermicro e ficamos genuinamente impressionados com seu desempenho em cargas de trabalho de inferência. Estamos ansiosos para receber o MI350P para testes e ver como a variante PCIe se comporta no chassi de servidor mais convencional para o qual foi projetada.

Placa PCIe AMD Instinct MI350P
Especificação Entregue (FLOPS) Pico (TFLOPS)
Desempenho
BF16 713 1150
FP16 672 1150
FP8 1529 2300
MXFP8 1327 2300
MXFP6 1804 4600
MXFP4 2299 4600
Memória e Particionamento
Capacidade de memória 144 GB HBM3E 144 GB HBM3E
Memória P&B 3.6 TB / s 4.0 TB / s
Instâncias GPU Até 4 unidades de 36 GB cada Até 4 unidades de 36 GB cada
Plataforma
Decodificação de vídeo e JPEG
Interconexão de escalonamento de GPU Não suportado Não suportado
Produto FF FHFL de dois slots refrigerado a ar FHFL de dois slots refrigerado a ar
Potência Máxima Total da Placa (TBP) 600W
(450W configurável)
600W
(450W configurável)
Host PCIe PCIe Gen 5 x16 a 128 GB/s PCIe Gen 5 x16 a 128 GB/s

A potência não chega a ser reduzida pela metade. A MI350P tem uma classificação de 600 W TBP, cerca de 60% dos 1,000 W da MI350X. 600 W é o limite definido pela especificação PCIe CEM, portanto, a placa opera na temperatura máxima permitida pelo slot. Um modo de 450 W está disponível para gabinetes que não conseguem fornecer a potência ou o sistema de refrigeração completos, com alguma redução no desempenho. A classificação de 600 W também coloca a MI350P na mesma categoria da NVIDIA H200 NVL e da RTX Pro 6000 Server, com as quais competirá neste segmento.

Diferentemente da oferta NVL4 da NVIDIA com o H200, a AMD não expõe os links Infinity Fabric da GPU no MI350P; todas as comunicações coletivas passam pelo link PCIe Gen5 x16 (128 GB/s).

A história do resfriamento a ar com oito GPUs

Como a MI350P é uma placa PCIe padrão de dois slots, altura e comprimento totais, ela se encaixa em servidores que as empresas já implantam e operam, incluindo as plataformas densas de oito GPUs com refrigeração a ar que estão sendo lançadas pelos principais fabricantes de equipamentos originais (OEMs). O Dell PowerEdge XE7740 e o HPE ProLiant DL380a Gen12, ambos já analisados ​​por nós anteriormente, são os alvos óbvios. Cada um deles é projetado especificamente para hospedar oito aceleradores FHFL de dois slots em um chassi com refrigeração a ar, com fornecimento de energia e fluxo de ar já projetados para placas de 600 W. Sem necessidade de rack personalizado, sistema de refrigeração líquida ou placa-mãe OAM.

Uma configuração de oito placas MI350P em um desses sistemas oferece 1,152 GB de HBM3E e 32 TB/s de largura de banda de memória agregada em um único gabinete refrigerado a ar. Para inferência em grandes modelos openweight, isso é suficiente para hospedar um modelo com um trilhão de parâmetros em MXFP4 em um único chassi. Mas, como mencionado anteriormente, a desvantagem é a ausência de um mecanismo de escalonamento vertical. No OAM MI350X, as GPUs se comunicam através do Infinity Fabric na placa-mãe Universal. No MI350P, cada comunicação entre GPUs utiliza PCIe Gen5 x16 a 128 GB/s, o mesmo caminho usado para alcançar o host. Para cargas de trabalho de inferência, particularmente com particionamento tensorial paralelo dentro de um nó e paralelismo de pipeline ou de dados entre nós, isso é viável. Para treinamento fortemente acoplado, onde a largura de banda all-reduce domina o tempo de execução, a plataforma OAM continua sendo a melhor opção.

Formatos de precisão

Vale a pena abordar a precisão, embora nenhum dos formatos suportados no MI350P seja novo. O MI350X possui o mesmo conjunto. A razão pela qual isso ainda importa é que os tipos de dados de escalonamento de bloco OCP (MXFP8, MXFP6, MXFP4) se tornaram o padrão para que laboratórios de modelagem de ponta treinem e implementem modelos. Esses formatos permitem que os laboratórios treinem com menor precisão com pouca ou nenhuma perda de qualidade, e os benefícios de inferência aparecem imediatamente depois.

Menor precisão significa maior velocidade. O MXFP4 é mais que o dobro mais rápido que o FP8 e aproximadamente quatro vezes mais rápido que o BF16 em picos de desempenho. Esse ganho de velocidade se reflete em cargas de trabalho reais. O lançamento do gpt-oss da OpenAI tornou o aumento de desempenho evidente, e modelos de ponta como o Kimi K2.6 estão sendo treinados nativamente com reconhecimento de quantização em INT4 desde o início, em vez de serem quantizados posteriormente. A outra metade da história é a memória. Os pesos INT4 e MXFP4 ocupam um quarto do espaço ocupado pelo BF16. Isso significa que modelos com trilhões de parâmetros podem caber em um único servidor com oito GPUs. Para uma empresa que deseja hospedar um grande modelo openweight localmente, a diferença é de um rack em comparação com um cluster de vários nós, com toda a infraestrutura de rede e orquestração que isso implica.

ponto de partida

A maioria das empresas que avaliam IA on-premise se depara com problemas de energia, refrigeração, densidade de racks ou orçamento antes de atingir o limite de capacidade computacional. Uma placa PCIe Instinct, que se integra à infraestrutura de servidores já existente, contorna os piores desses problemas. A NVIDIA não possui atualmente uma placa PCIe para servidores de ponta que concorra com ela, o que dá à AMD uma vantagem incontestável nesse segmento enquanto durar.

Informações adicionais estão disponíveis no Instinto AMD Disputas de Comerciais.

Envolva-se com a StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed

Haroldo Fritts

Estou na indústria de tecnologia desde que a IBM criou a Selectric. Minha formação, porém, é escrever. Então decidi sair do negócio de pré-vendas e voltar às minhas raízes, escrevendo um pouco, mas ainda envolvido com tecnologia.