ArmazenamentoReview.com

Análise do DapuStor R6060 de 122 TB: QLC Gen5 para leitura intensiva em grande escala

Empreendimento  ◇  SSD

O DapuStor R6060 é um SSD QLC empresarial PCIe Gen5 construído em torno do controlador DP800 da empresa e NAND 3D QLC. A série abrange os formatos U.2, E3.L e E1.L, com capacidades de 15.36 TB, 30.72 TB, 61.44 TB e 122.88 TB, além de uma versão de 245 TB no topo da linha. A interface suporta operação PCIe 5.0 x4 ou 2x2 de porta dupla e NVMe 2.0. Nossa unidade de teste é a variante E3.L 2T de 122.88 TB, que a DapuStor posiciona para infraestrutura de IA densa, implantações em nuvem e pools de armazenamento em larga escala onde a densidade de flash é a principal consideração. O perfil de desempenho se encaixa nessa função, combinando alta largura de banda de leitura sequencial com uma taxa de transferência de gravação muito menor, tornando o R6060 mais adequado para conjuntos de dados com grande volume de leitura e camadas de armazenamento com capacidade limitada do que para cargas de trabalho transacionais de blocos pequenos.

Vista superior do DapuStor R6060 de 122 TB

A DapuStor classifica o R6060 com uma taxa de transferência de leitura sequencial de até 14 GB/s em toda a família, com uma taxa de transferência de gravação sequencial de 4 GB/s. O desempenho de leitura aleatória é especificado em até 3 milhões de IOPS para os modelos de 15.36 TB e 30.72 TB, enquanto os modelos de 61.44 TB e 122.88 TB são classificados em 2.8 milhões de IOPS. O desempenho de gravação aleatória é muito menor, com 40 mil IOPS a 16 KB nas capacidades menores e 20 mil IOPS a 32 KB no modelo de 122.88 TB. Isso coloca o R6060 em uma função voltada principalmente para leitura, especialmente para grandes conjuntos de dados e camadas de armazenamento densas, onde a capacidade utilizável é um fator mais importante do que a velocidade de gravação de pequenos blocos.

O R6060 inclui os recursos corporativos esperados em um SSD como este, sendo o NVMe 2.0 Flexible Data Placement (FDP) um dos mais relevantes para QLC. O FDP oferece ao host maior controle sobre onde os dados são gravados, o que ajuda a reduzir a amplificação de escrita e a aproveitar melhor a memória flash. A DapuStor classifica o SSD com 0.6 DWPD e lista a conformidade com OCP 2.5, NVMe-MI 1.2, proteção de dados de ponta a ponta, inicialização segura, verificação de firmware, suporte a sanitização, telemetria, monitoramento de latência e suporte a duas portas para sistemas que necessitam de redundância de caminho.

Vista traseira do DapuStor R6060 de 122 TB

A DapuStor oferece uma garantia de cinco anos para o R6060 e especifica uma potência máxima de 25 W e uma potência em modo ocioso de 5 W. A latência aleatória é de 80/25 µs para leitura/gravação, a latência sequencial é de 7/8 µs e o MTBF é de 2.5 milhões de horas.

Especificações do DapuStor R6060 de 122 TB

Métrica/Campo 15.36TB 30.72TB 61.44TB 122.88TB
Geral
PCN R6060
Capacidade (TB) 15.36 30.72 61.44 122.88
Fator de Forma  U.2/E3.L 2T/E1.L
Interface PCIe 5.0×4 / 2×2, NVMe 2.0
Tipo de flash Flash NAND QLC 3D Enterprise
Desempenho
Largura de banda de leitura a 128 KB (MB/s) 14000 14000 14000 14000
Largura de banda de gravação @128 KB (MB/s) 4000 4000 4000 4000
Leitura aleatória @4KB KIOPS 3000 3000 2800 2800
Quiosques de escrita aleatória 40 a 16 KB 40 a 16 KB 40 a 16 KB 20 a 32 KB
Latência aleatória R/W (µs) 80/25
Latência sequencial R/W (µs) 7/8
Energia
Potência máxima (W) 25
Potência ociosa (W) 5
Confiabilidade
resistencia 0.6 DWPD
MTBF 2.5 milhões de horas
UBER 1 setor por 10^18 bits lidos
Garantia 5 Anos

Desempenho do DapuStor R6060

Plataforma de teste de direção

Utilizamos um Dell PowerEdge R760 com Ubuntu 22.04.2 LTS como plataforma de teste para todas as cargas de trabalho desta análise. Equipado com um Cabos seriais Gen5 JBOF, oferece ampla compatibilidade com SSDs U.2, E1.S, E3.S e M.2. Nossa configuração de sistema está descrita abaixo:

  • 2 x Intel Xeon Gold 6430 (32 núcleos, 2.1 GHz)
  • 16 x 64GB DDR5-4400
  • SSD Dell BOSS de 480 GB
  • Cabos seriais Gen5 JBOF

Unidades comparadas

Ao analisarmos os resultados dos testes de desempenho, é importante ter em mente o posicionamento desses drives. Embora nem todos concorram diretamente em cenários de implementação, eles se sobrepõem o suficiente em capacidade e foco de mercado para fornecer um contexto útil sobre onde o DapuStor R6060 de 122.88 TB se encaixa no atual panorama de SSDs corporativos de alta capacidade.

O grupo de comparação destaca diversas abordagens diferentes para a escalabilidade de memória flash empresarial. O Micron 6550 ION de 61.44 TB, baseado em TLC, enfatiza o desempenho bruto superior da geração 5 (Gen5), enquanto o Solidigm P5336 de 122.88 TB e o Solidigm P5336 de 61.44 TB focam-se fortemente na maximização da densidade e na relação custo-benefício através da tecnologia NAND QLC. O DapuStor J5060 de 61.44 TB oferece outro ponto de referência para a geração 4 (Gen4) U.2, enquanto o R6060 entra no segmento mais recente da geração 5 (Gen5) E3.L com 122.88 TB.

A inclusão dessas unidades proporciona uma visão mais ampla de como o R6060 se compara em designs focados em desempenho e em densidade, à medida que os fornecedores continuam a desenvolver plataformas de armazenamento empresarial de alta capacidade.

Vista lateral do conector do DapuStor R6060 de 122 TB

Referência de desempenho da FIO

Para medir o desempenho de armazenamento de cada SSD com base em métricas comuns do setor, utilizamos a FIO. Cada unidade passa pelo mesmo processo de teste, que inclui uma etapa de pré-condicionamento com dois preenchimentos completos da unidade com uma carga de trabalho de gravação sequencial, seguida por uma medição de desempenho em estado estacionário. À medida que cada tipo de carga de trabalho medida muda, executamos outro preenchimento de pré-condicionamento com esse novo tamanho de transferência.

Nesta seção, nos concentramos nos seguintes benchmarks de FIO:

  • 128K sequencial
  • 64K aleatório
  • 16K aleatório
  • 4K aleatório

Gravação sequencial de 128K (IODepth 16 / NumJobs 1)

O SSD DapuStor R6060 de 122.88 TB alcançou 3,920.6 MB/s no teste de gravação sequencial de 128 KB, ficando em segundo lugar neste grupo. O Micron 6550 ION de 61.44 TB ficou bem à frente, com 10,456.4 MB/s, mas o R6060 ainda terminou confortavelmente à frente do Solidigm P5336 de 122.88 TB, com 3,152.5 MB/s, do DapuStor J5060 de 61.44 TB, com 2,883.1 MB/s, e do Solidigm P5336 de 61.44 TB, com 2,503.5 MB/s.

Latência de gravação sequencial de 128K (IODepth 16 / NumJobs 1)

O DapuStor R6060 de 122.88 TB apresentou latência de gravação sequencial de 128K de 509.7 µs, ficando novamente em segundo lugar no geral. O Micron 6550 ION de 61.44 TB liderou com 191.0 µs, enquanto os demais ficaram atrás do R6060, incluindo o Solidigm P5336 de 122.88 TB com 634.0 µs, o DapuStor J5060 de 61.44 TB com 693.3 µs e o Solidigm P5336 de 61.44 TB com 798.4 µs. Embora a Micron tenha mantido uma grande vantagem, o R6060 ainda apresentou o melhor resultado entre os demais SSDs.

Leitura sequencial de 128K (IODepth 64 / NumJobs 1)

O DapuStor R6060 de 122.88 TB atingiu 11,554.0 MB/s no teste de leitura sequencial de 128K, o que o colocou novamente em segundo lugar, atrás do Micron 6550 ION de 61.44 TB, com 13,979.7 MB/s.

Após esses dois modelos, houve uma queda acentuada no desempenho do restante do grupo de comparação, com o Solidigm P5336 de 61.44 TB atingindo 7,132.3 MB/s, o Solidigm P5336 de 122.88 TB alcançando 7,121.6 MB/s e o DapuStor J5060 de 61.44 TB atingindo 7,126.8 MB/s. O R6060 foi o único SSD, além do modelo da Micron, a atingir mais de 11 GB/s neste teste.

Latência de leitura sequencial de 128K (IODepth 64 / NumJobs 1)

O DapuStor R6060 de 122.88 TB registrou 692.1 µs na latência de leitura sequencial de 128K, o segundo melhor resultado do grupo. O Micron 6550 ION de 61.44 TB apresentou a menor latência, com 571.9 µs, enquanto o Solidigm P5336 de 122.88 TB teve a maior, com 1123.0 µs. Os dois SSDs Solidigm P5336 apresentaram resultados quase idênticos nesse quesito, com o modelo de 122.88 TB atingindo 1123.0 µs e a versão de 61.44 TB, 1121.3 µs. O DapuStor J5060 ficou em uma posição intermediária, com 1122.1 µs.

O R6060 manteve uma boa vantagem sobre os demais concorrentes, embora a Micron ainda tenha obtido o primeiro lugar.

 

Gravação aleatória 64K

O SSD DapuStor R6060 de 122.88 TB apresentou desempenho praticamente estável no teste de gravação aleatória de 64K. A taxa de atualização inicial foi de 3,477.9 MB/s e 55.6K IOPS na configuração 1/1, com um salto para 3,915.2 MB/s e 62.6K IOPS na configuração 1/2. A partir daí, o desempenho se manteve praticamente inalterado. A maior parte do teste ficou entre 3,913.7 MB/s e 3,916.9 MB/s, com o melhor resultado de 3,916.9 MB/s e 62.7K IOPS na configuração 4/1. Mesmo nas configurações mais exigentes, o SSD manteve taxas de 3,914.6 MB/s na configuração 32/4, 3,913.8 MB/s na configuração 16/8 e 3,914.0 MB/s na configuração 32/8. Assim, com exceção do ponto de partida inferior de 1/1, o R6060 basicamente se manteve em um patamar fixo durante toda a varredura.

Analisando os outros SSDs no gráfico, o Micron 6550 ION de 61.44 TB apresentou um desempenho muito superior, passando de cerca de 2.4 GB/s para pouco mais de 10.3 GB/s. Atrás do R6060, o Solidigm P5336 de 122.88 TB manteve-se em torno de 3.0 GB/s, o DapuStor J5060 de 61.44 TB ficou principalmente em torno de 2.8 GB/s, e o Solidigm P5336 de 61.44 TB oscilou entre 2.5 GB/s e 2.6 GB/s. Portanto, o R6060 ficou em segundo lugar, com uma boa vantagem sobre os demais SSDs que não são da Micron.

O Dapustor de 122 TB executou uma taxa de gravação escalonada de 64k.

Latência de gravação aleatória de 64K

A latência seguiu o mesmo padrão constante, com o R6060 registrando 18 µs em 1/1, 31 µs em 1/2 e 2/1, 63 µs em 1/4, 2/2 e 4/1, e 127 µs em 2/4, 4/2 e 8/1. Conforme a carga aumentava, a latência subiu para 255 µs em 1/8, 2/8, 8/2 e 16/1, e para 510 µs em 4/8, 8/4 e 32/1. No limite superior da carga, atingiu 1,021 µs em 8/8, 16/4 e 32/2, 2,043 µs em 16/8 e 32/4, e um pico de 4,087 µs em 32/8.

O SSD da Micron apresentou a menor latência por uma ampla margem, terminando em torno de 1,600 µs em 32/8. O R6060 ficou em segundo lugar com 4,087 µs. O Solidigm P5336 de 122.88 TB terminou em torno de 5,100 µs, o J5060 em torno de 5,500 µs e o Solidigm P5336 de 61.44 TB um pouco acima de 6,000 µs. Portanto, embora o R6060 estivesse muito longe da latência da Micron, ele ainda terminou à frente dos outros três SSDs quando o teste ficou mais pesado.

O Dapustor de 122 TB apresentou latência de gravação de 64k escalonada.

Leitura aleatória 64K

O DapuStor R6060 de 122.88 TB apresentou uma curva menos uniforme na leitura aleatória de 64K, mas os números finais foram os melhores no término do teste. A taxa de abertura foi de 381.4 MB/s e 6.1K IOPS em 1/1, subindo para 748.2 MB/s em 1/2, 1,007.1 MB/s em 2/2, 1,431.8 MB/s em 1/4 e 2,343.8 MB/s em 2/4. A taxa de transferência continuou aumentando até atingir 2,767.5 MB/s em 1/8, depois 3,668.5 MB/s em 4/4, 4,060.2 MB/s em 16/2, 4,750.0 MB/s em 2/8, 6,433.3 MB/s em 8/4 e 7,495.3 MB/s em 4/8. A partir daí, alcançou 8,428.0 MB/s em 32/2, 9,827.5 MB/s em 16/4, 10,782.5 MB/s em 8/8, 12,798.2 MB/s em 16/8 e atingiu o pico de 13,274.8 MB/s em 32/8.

Conforme indicado no gráfico abaixo, o Micron 6550 ION 61.44TB manteve-se à frente durante grande parte do teste, atingindo um pico de pouco menos de 13.0 GB/s, embora o R6060 tenha conseguido ficar ligeiramente acima do Micron no final.O Dapustor de 122 TB executou leitura escalonada de 64k.

Latência de leitura aleatória de 64K

Embora tenha apresentado um desempenho inicial mais instável do que os demais drives, o R6060 teve um ótimo resultado perto do final do teste. Começou com 163µs a 1/1, depois registrou 167µs a 1/2, 174µs a 1/4, 180µs a 1/8, 217µs a 2/8, 220µs a 2/4, 249µs a 2/2, 260µs a 2/1, 287µs a 4/8, 290µs a 4/4 e 352µs a 8/4. A faixa intermediária ficou menos nítida, com 446µs em 8/1, 505µs em 16/2, 531µs em 32/2, 574µs em 16/1, 595µs em 32/1, 700µs em 16/8, 738µs em 32/4 e um pico de 1,285µs em 32/8.

No gráfico, a Micron novamente se manteve em um nível geral mais baixo, terminando em torno de 1,200 µs em 32/8. O R6060 terminou em 1,285 µs, o que ainda foi muito menor do que o J5060 e ambos os drives da Solidigm, que ultrapassaram 2,200 µs na extremidade oposta.

Leitura aleatória 16K

O DapuStor R6060 de 122.88 TB obteve um excelente resultado no teste de leitura aleatória de 16K após o aumento da profundidade da carga de trabalho. Atingiu 9.6K IOPS em 1/1, subindo para 18.0K em 2/1, 37.2K em 1/4, 58.2K em 8/1 e 72.8K em 1/8. A partir daí, continuou a crescer, alcançando 112.8K em 16/1, 133.3K em 4/4, 138.1K em 2/8 e 140.3K em 1/16, e continuou a subir ainda mais quando a carga de trabalho se tornou mais profunda. Chegou a 211.6K em 32/1, 246.9K em 8/4, 256.5K em 4/8 e 261.2K em 2/16. Nas configurações mais exigentes, atingiu 436.0K em 16/4, 447.7K em 8/8 e 456.1K em 4/16, antes de finalizar em 659.3K em 32/4, 671.3K em 16/8, 679.7K em 8/16, 784.5K em 32/8, 786.2K em 16/16 e atingir o pico de 817.7K IOPS em 32/16.

Em comparação com os demais SSDs do grupo, o R6060 foi um dos mais fortes no geral, embora a Micron ainda tenha ficado com a melhor classificação. O Micron 6550 ION de 61.44 TB alcançou cerca de 860 mil IOPS, ficando à frente do R6060 no limite superior. Dito isso, o R6060 se manteve bem à frente dos dois SSDs Solidigm P5336 durante boa parte dos testes e terminou com uma classificação bem superior à deles.

Latência de leitura aleatória de 16K

A latência também se mostrou boa para o R6060 durante a maior parte do teste, até o final. Começou em 104µs em 1/1, depois registrou 110µs em 2/1 e 124µs em 4/1. Nas configurações mais leves e intermediárias, manteve-se em uma faixa estreita, incluindo 107µs em 1/4, 109µs em 1/8, 113µs em 1/16, 115µs em 2/8, 120µs em 4/4, 130µs em 8/4, 137µs em 8/1 e 141µs em 16/1. Com o aumento da carga, a latência subiu gradualmente para 143µs em 8/8, 148µs em 16/4, 151µs em 32/1, 189µs em 8/16 e 193µs em 16/8, antes de subir mais acentuadamente nas combinações mais pesadas, atingindo 196µs em 32/4, 330µs em 16/16, 336µs em 32/8 e atingindo o pico de 642µs em 32/16.

Isso manteve o R6060 em uma boa posição durante a maior parte do teste, embora tenha apresentado um pico perceptível no final. O Micron 6550 ION ainda apresentou a melhor curva de latência no geral e se manteve bem abaixo da média em todo o gráfico.

 

Gravação aleatória 16K

O DapuStor R6060 de 122.88 TB apresentou um resultado baixo em gravação aleatória de 16K em comparação com a maioria dos SSDs deste grupo. Ele iniciou com 42.7K IOPS em 1/1, subiu para 51.3K em 1/4 e atingiu o pico de 50.7K em 2/4. Depois disso, manteve-se principalmente na faixa de 28K a 46K durante o restante do teste, incluindo 46.4K em 1/8, 43.0K em 2/8, 44.2K em 4/4, 41.3K em 8/8, 37.1K em 16/4, 36.1K em 16/8, 30.0K em 16/16 e 27.3K em 32/16. Em termos de largura de banda, isso resultou em um pico de 801.4 MB/s, com a maior parte da execução situando-se mais próxima da faixa de 500 MB/s a 700 MB/s.

Em comparação com os demais, o R6060 ficou bem atrás em IOPS de gravação bruta, com exceção do outro SSD Solidigm de 122 TB. O Micron 6550 ION de 61.44 TB foi de longe o de melhor desempenho, mantendo-se na faixa de 250K a 660K durante a maior parte dos testes. O DapuStor J5060 de 61.44 TB geralmente ficava em torno de 175K a 185K IOPS, enquanto o Solidigm P5336 de 61.44 TB normalmente ficava na faixa de 160K.

Latência de gravação aleatória de 16K

O R6060 começou com um valor suficientemente baixo de 23µs em 1/1, depois mediu 51µs em 2/1, 77µs em 1/4, 115µs em 4/1 e 157µs em 2/4. A partir daí, subiu rapidamente à medida que a carga de trabalho aumentava, atingindo 371µs em 2/8, 470µs em 16/1, 779µs em 4/8, 815µs em 8/4, 881µs em 2/16, 1,139µs em 32/1, 1,548µs em 8/8, 1,723µs em 16/4, 1,738µs em 4/16, 3,660µs em 8/16, 4,133µs em 32/4, 8,537µs em 16/16, 8,846µs em 32/8 e, finalmente, 18,759µs em 32/16.

Isso fez com que o R6060 apresentasse a maior latência do grupo no limite superior do teste. O Micron manteve-se muito abaixo desse valor em todos os testes, e mesmo o J5060 e ambos os SSDs da Solidigm ficaram bem abaixo do R6060 nas combinações mais exigentes.

Leitura aleatória 4K

O DapuStor R6060 de 122.88 TB apresentou ótimos resultados em leituras aleatórias de 4K, com o desempenho melhorando à medida que o teste avançava para combinações mais complexas de profundidade de fila e número de tarefas.

Começou com 11.5 mil IOPS em 1/1, depois subiu para 21.5 mil em 2/1, 44.0 mil em 1/4, 83.2 mil em 2/4, 85.4 mil em 1/8, 162.2 mil em 2/8 e 165.0 mil em 1/16. A partir daí, continuou a escalar, atingindo 313.1 mil em 4/8, 316.5 mil em 2/16, 557.9 mil em 16/4, 585.6 mil em 8/8, 598.9 mil em 4/16, 1.043 milhão em 16/8, 1.069 milhão em 8/16, 1.729 milhão em 16/16 e, finalmente, atingindo o pico de 2.061 milhões de IOPS em 32/16. A largura de banda atingiu um pico de 8,050.3 MB/s.

Latência de leitura aleatória de 4K

A latência de leitura permaneceu dentro de uma faixa estreita durante a maior parte da varredura, aumentando notavelmente apenas na extremidade superior. O R6060 começou com 0.086 ms em 1/1, depois registrou 0.092 ms em 2/1, 0.090 ms em 1/4, 0.095 ms em 2/4, 0.093 ms em 1/8, 0.098 ms em 2/8 e 0.096 ms em 1/16. No meio da execução, manteve-se próximo a esse mesmo nível, incluindo 0.101 ms em 4/4 e 4/8, 0.107 ms em 8/4, 0.109 ms em 8/8, 0.115 ms em 16/4, 0.119 ms em 8/16 e 0.123 ms em 16/8. Nas configurações mais exigentes, o valor subiu para 0.148 ms em 16/16, 0.155 ms em 32/8 e atingiu o pico de 0.247 ms no final do teste.

Armazenamento direto da GPU

Um dos testes que conduzimos neste testbench foi o teste Magnum IO GPU Direct Storage (GDS). GDS é um recurso desenvolvido pela NVIDIA que permite que GPUs ignorem a CPU ao acessar dados armazenados em unidades NVMe ou outros dispositivos de armazenamento de alta velocidade. Em vez de rotear dados pela CPU e pela memória do sistema, o GDS permite a comunicação direta entre a GPU e o dispositivo de armazenamento, reduzindo significativamente a latência e melhorando a taxa de transferência de dados.

Como funciona o armazenamento direto da GPU

Tradicionalmente, quando uma GPU processa dados armazenados em uma unidade NVMe, os dados precisam primeiro passar pela CPU e pela memória do sistema antes de chegar à GPU. Esse processo cria gargalos, pois a CPU atua como intermediária, adicionando latência e consumindo recursos valiosos do sistema. O GPU Direct Storage elimina essa ineficiência, permitindo que a GPU acesse os dados diretamente do dispositivo de armazenamento por meio do barramento PCIe. Esse caminho direto reduz a sobrecarga de movimentação de dados, permitindo transferências de dados mais rápidas e eficientes.

Cargas de trabalho de IA, especialmente aquelas que envolvem aprendizado profundo, são altamente intensivas em dados. Treinar grandes redes neurais requer o processamento de terabytes de dados, e qualquer atraso na transferência de dados pode levar a GPUs subutilizadas e tempos de treinamento mais longos. O GPU Direct Storage aborda esse desafio garantindo que os dados sejam entregues à GPU o mais rápido possível, minimizando o tempo ocioso e maximizando a eficiência computacional.

Além disso, o GDS é particularmente benéfico para cargas de trabalho que envolvem streaming de grandes conjuntos de dados, como processamento de vídeo, processamento de linguagem natural ou inferência em tempo real. Ao reduzir a dependência da CPU, o GDS acelera a movimentação de dados e libera recursos da CPU para outras tarefas, aprimorando ainda mais o desempenho geral do sistema.

Taxa de transferência de leitura sequencial GDSIO

Em nosso teste de taxa de transferência de leitura sequencial GDSIO, o DapuStor R6060 de 122.88 TB apresentou resultados mistos em transferências de 16K, estabilizando-se em um padrão muito mais forte à medida que os tamanhos dos blocos aumentavam. Em 16K, ele iniciou com 663.7 MiB/s com um único thread, caiu para 221.5 MiB/s com quatro threads e 200.3 MiB/s com oito, e então subiu novamente para 978.8 MiB/s com 128 threads. Isso o deixou atrás de alguns outros drives durante grande parte da porção de blocos pequenos do teste, especialmente na faixa intermediária de threads, portanto, as leituras sequenciais de 16K não foram o ponto forte deste drive.

Com 128K, o R6060 apresentou um desempenho muito superior. Registrou 1.4 GiB/s com um único thread, 1.7 GiB/s com 16 threads, 2.8 GiB/s com 32 threads, subindo para 4.3 GiB/s com 64 threads e 4.9 GiB/s com 128 threads. Isso lhe conferiu o melhor resultado neste grupo em contagens de threads mais elevadas para leituras sequenciais de 128K, à frente do DapuStor J5060 de 61.44 TB, do Micron 6550 ION de 61.44 TB e do Solidigm P5336 de 122.88 TB. A diferença foi especialmente notável com 64 e 128 threads, onde o R6060 se destacou dos demais concorrentes.

Os maiores ganhos foram observados nos testes de 1M, onde o R6060 começou com 1.7 GiB/s com um thread, saltou para 3.0 GiB/s com quatro, 4.4 GiB/s com oito, 5.2 GiB/s com 16 e atingiu o pico de 5.9 GiB/s com 128 threads. A partir de oito threads, liderou o grupo de comparação e continuou a ampliar sua vantagem conforme a concorrência aumentava. Portanto, embora o R6060 tenha apresentado desempenho irregular na seção de 16K, seus resultados de leitura sequencial de 128K e 1M foram muito fortes, especialmente quando o número de threads atingiu valores mais altos no teste.

IOPS de leitura sequencial GDSIO

Para IOPS de leitura sequencial GDSIO, o DapuStor R6060 de 122.88 TB apresentou um perfil dividido dependendo do tamanho do bloco. Com blocos de 16 KB, começou forte com 42.5 mil IOPS com um thread, caiu para 14.2 mil com quatro threads e 12.8 mil com oito, e depois se recuperou ao longo do restante do teste, atingindo 19.9 mil com 32 threads, 36.6 mil com 64 e 62.6 mil com 128. Essa recuperação o colocou próximo do Micron 6550 ION no limite superior, embora o P5336 da Solidigm tenha terminado bem à frente nesta parte do teste com 92.5 mil IOPS com 128 threads. As cargas de trabalho menores de 16 KB foram um pouco irregulares para o R6060 no meio da faixa de threads, mas ele terminou muito melhor do que parecia no início.

Com 128 mil IOPS, o R6060 apresentou uma curva de escalonamento mais robusta e estável. Registrou 11.6 mil IOPS em um núcleo, 6.4 mil em quatro, 8.7 mil em oito, 14.0 mil em 16, 23.2 mil em 32, 35.3 mil em 64 e 40.3 mil em 128. Esse foi o melhor resultado do grupo na faixa superior, à frente do DapuStor J5060 de 61.44 TB com 31.3 mil IOPS, do Solidigm P5336 de 122.88 TB com 23.3 mil IOPS e do Micron 6550 ION de 61.44 TB com 19.4 mil IOPS. Com o aumento da concorrência, o R6060 se destacou de forma bastante convincente nessa categoria.

Nos resultados de 1M, o R6060 teve um bom desempenho (embora seja difícil perceber isso pelo gráfico). Começou com 1.7K IOPS, subiu para 3.0K com quatro threads, 4.5K com oito threads, 5.3K com 16 threads, 5.6K com 32 threads, 5.9K com 64 threads e 6.0K com 128 threads. Isso lhe conferiu o melhor resultado no grupo de comparação para as transferências maiores de 1M, superando o DapuStor J5060 com 4.3K, o Solidigm P5336 com 4.3K e o Micron 6550 ION com 2.6K. Portanto, embora a parte de 16K tenha apresentado algumas quedas, o R6060 entregou um desempenho muito bom em IOPS de leitura sequencial de 128K e 1M, especialmente à medida que o número de threads aumentava no teste.

Latência de leitura sequencial GDSIO

Na latência de leitura sequencial GDSIO, o DapuStor R6060 de 122.88 TB apresentou um dos melhores resultados deste grupo, especialmente com o aumento do número de threads. A 16K, a latência inicial foi de 22 µs com uma thread, passando para 281 µs com quatro, 623 µs com oito, 1.1 ms com 16, 1.6 ms com 32, 1.7 ms com 64 e 2.0 ms com 128. Isso lhe conferiu a menor latência na carga mais leve de 16K e o manteve competitivo no restante da curva, embora o Micron 6550 ION e o Solidigm P5336 tenham apresentado valores ligeiramente inferiores na faixa intermediária de 16K, antes do grupo se aproximar novamente do limite superior.

Com 128K de latência, o R6060 manteve uma posição sólida, registrando 85 µs em um thread, 621 µs em 4, 923 µs em 8, 1.1 ms em 16, 1.4 ms em 32, 1.8 ms em 64 e 3.2 ms em 128. Com 32 threads, ele se manteve entre os melhores, e mesmo com o aumento da latência sob cargas mais pesadas, seu desempenho ainda se comparou bem com o dos outros SSDs. O Micron 6550 ION obteve resultados muito superiores na extremidade superior do teste de 128K, enquanto o DapuStor J5060 e o Solidigm P5336 também superaram o R6060 com 128 threads.

A maior diferença foi observada nas cargas de trabalho de 1M, onde o R6060 apresentou 587 µs com um thread, 1.3 ms com quatro, 1.8 ms com oito, 3.0 ms com 16, 5.8 ms com 32, 10.8 ms com 64 e 21.3 ms com 128. Esses números foram melhores que os do Micron 6550 ION em toda a faixa de 1M e inferiores aos do Solidigm P5336 nas contagens de threads mais altas, embora o DapuStor J5060 tenha se mantido à frente com 64 e 128 threads. No geral, o R6060 teve um bom desempenho mantendo a latência de leitura sequencial sob controle à medida que os tamanhos de transferência e a simultaneidade aumentavam, com resultados especialmente sólidos nas partes mais exigentes do teste.

Taxa de transferência de gravação sequencial GDSIO

Em termos de taxa de transferência de gravação sequencial GDSIO, o DapuStor R6060 de 122.88 TB apresentou resultados sólidos na maior parte da faixa de testes, especialmente em 128 KB e nos primeiros testes de 1 milhão de bytes. Em 16 KB, a taxa inicial foi de 0.67 GiB/s, subiu para 1.18 GiB/s com quatro threads, 1.37 GiB/s com oito threads e atingiu o pico de 1.47 GiB/s com 16 threads, antes de cair para 1.20 GiB/s em 128 KB. Esse desempenho foi competitivo com o do Micron 6550 ION, que apresentou resultados ligeiramente superiores em grande parte da faixa intermediária de 16 KB.

O R6060 apresentou um desempenho muito superior quando o tamanho do bloco passou a ser de 128 KB. Ele iniciou com 2.79 GiB/s, saltou para 3.82 GiB/s com quatro threads e se manteve nessa faixa até 16 threads, onde atingiu 3.83 GiB/s. A partir daí, registrou 3.71 GiB/s com 32 threads, 3.80 GiB/s com 64 threads e 3.28 GiB/s com 128 threads. Isso o colocou à frente dos outros SSDs nesta comparação em praticamente toda a faixa de 128 KB, com apenas uma pequena queda observada no número máximo de threads.

No teste de 1M, o R6060 liderou novamente o grupo nas contagens de fios mais baixas e intermediárias. Ele apresentou 3.81 GiB/s com um fio, 3.73 GiB/s com quatro, 3.79 GiB/s com oito e 3.49 GiB/s com 16, antes de cair para 3.31 GiB/s com 32, 3.06 GiB/s com 64 e 2.93 GiB/s com 128. O Micron 6550 ION acabou se destacando na parte mais exigente do teste de 1M, atingindo um pico de 3.90 GiB/s com 32 fios, enquanto o Solidigm P5336 se manteve na faixa dos 3 GiB/s e o DapuStor J5060 se manteve próximo a 2.8 GiB/s durante todo o teste. De forma geral, o R6060 apresentou um dos melhores perfis de taxa de transferência de gravação sequencial neste grupo, com seu melhor desempenho em 128K e forte escalabilidade inicial em cargas de trabalho de 1M.

IOPS de gravação sequencial GDSIO

Para IOPS de gravação sequencial GDSIO, o DapuStor R6060 de 122.88 TB apresentou um desempenho sólido em 16K IOPS e manteve-se próximo ao topo durante a maior parte desse teste. Começou com 43.5 mil IOPS em um thread, subiu para 76.9 mil em quatro, 89.4 mil em oito, 95.9 mil em 16 e atingiu o pico de 98.4 mil em 32 threads antes de cair para 89.8 mil em 64 e 78.7 mil em 128. O Micron 6550 ION terminou ligeiramente acima no meio do teste de 16K, atingindo 100 mil IOPS em 32 threads e 97.5 mil em 64, mas o R6060 permaneceu muito próximo até o número máximo de threads, onde tanto o J5060 quanto o Solidigm P5336 o ultrapassaram.

A 128K, a R6060 apresentou os melhores resultados deste grupo do início ao fim. Registrou 22.8K IOPS em um thread, depois 31.3K em quatro, 31.3K em oito, 31.4K em 16, 30.3K em 32, 31.2K em 64 e 26.9K em 128. Isso a manteve à frente da Micron 6550 ION, que se manteve próxima de 30K na faixa intermediária antes de cair para a casa dos 20K, e bem à frente da J5060 e da Solidigm P5336, que ficaram bem atrás na maior parte da varredura de 128K.

A seção de 1M apresentou resultados muito mais equilibrados em todos os quatro SSDs, mas o R6060 ainda ficou entre os primeiros colocados. Ele alcançou 3.9K IOPS em um thread, 3.8K em quatro, 3.9K em oito, 3.6K em 16, 3.4K em 32, 3.1K em 64 e 3.0K em 128. Isso o colocou ligeiramente à frente do J5060 na faixa inferior e praticamente empatado com o Solidigm P5336 no final, enquanto o Micron 6550 ION chegou a ficar brevemente à frente em 32 e 64 threads. No geral, o R6060 apresentou um forte perfil de IOPS de gravação sequencial, com seu melhor resultado em 128K, liderando o grupo de comparação em toda a faixa de threads.

Latência de gravação sequencial GDSIO

Na latência de escrita sequencial GDSIO, o DapuStor R6060 de 122.88 TB apresentou resultados sólidos nas porções mais leves e intermediárias do teste, perdendo terreno à medida que o número de threads aumentava. Em 16K, registrou 22 µs com uma thread, 51 µs com quatro, 88 µs com oito, 165 µs com 16, 323 µs com 32, 709 µs com 64 e 1.6 ms com 128. Esses são números muito bons no geral, e mantiveram o R6060 próximo ao topo do grupo durante a maior parte do teste de 16K. O Micron 6550 ION ficou ligeiramente abaixo na carga mais pesada de 16K, enquanto o J5060 e o Solidigm P5336 ficaram acima.

Com 128K, o R6060 também se manteve competitivo, registrando 43µs com 1 thread, 126µs com 4, 254µs com 8, 508µs com 16, 1.1ms com 32, 2.0ms com 64 e 4.8ms com 128. Essa foi uma das curvas de menor latência na comparação, especialmente com 64 threads. Apenas o Micron 6550 ION apresentou um desempenho ligeiramente inferior no limite superior, enquanto o J5060 e o Solidigm P5336 superaram o R6060 com 128 threads.

O maior salto ocorreu na seção de 1M, onde o R6060 registrou 255 µs em um thread, 1.0 ms em 4, 2.1 ms em 8, 4.5 ms em 16, 9.5 ms em 32, 20.5 ms em 64 e 42.7 ms em 128. Isso o colocou atrás do Micron 6550 ION em cargas mais pesadas e ligeiramente acima do Solidigm P5336, enquanto o J5060 apresentou a maior latência neste grupo na extremidade superior. Portanto, o R6060 teve um bom desempenho na latência de gravação sequencial até 16K e 128K, mas as transferências maiores de 1M mostraram um aumento mais acentuado à medida que a concorrência aumentava.

Benchmark de ponto de verificação DLIO

Para avaliar o desempenho real de SSDs em ambientes de treinamento de IA, utilizamos a ferramenta de benchmark Data and Learning Input/Output (DLIO). Desenvolvida pelo Argonne National Laboratory, a DLIO foi projetada especificamente para testar padrões de E/S em cargas de trabalho de aprendizado profundo. Ela fornece insights sobre como os sistemas de armazenamento lidam com desafios como checkpoints, ingestão de dados e treinamento de modelos. O teste é projetado para que cada unidade seja totalmente preenchida com checkpoints completos; SSDs maiores comportam mais checkpoints. O gráfico abaixo ilustra como ambas as unidades lidam com o processo em 99 checkpoints (198 para a de 122 TB). Ao treinar modelos de aprendizado de máquina, os checkpoints são essenciais para salvar periodicamente o estado do modelo, evitando a perda de progresso durante interrupções ou falhas de energia. Essa demanda de armazenamento requer um desempenho robusto, especialmente sob cargas de trabalho sustentadas ou intensivas. Utilizamos a versão 2.0 do benchmark DLIO, lançada em 13 de agosto de 2024.

Para garantir que nossos testes de desempenho refletissem cenários do mundo real, baseamos nossos testes na arquitetura do modelo LLAMA 3.1 405B. Implementamos o recurso de checkpoint usando `torch.save()` para capturar os parâmetros do modelo, os estados do otimizador e os estados das camadas. Nossa configuração simulou um sistema com oito GPUs, implementando uma estratégia de paralelismo híbrido com paralelismo de tensores de 4 vias e paralelismo de pipeline de 2 vias, distribuídos entre as oito GPUs. Essa configuração resultou em tamanhos de checkpoint de 1,636 GB, representativos dos requisitos atuais de treinamento de modelos de linguagem de grande porte.

Para o teste de média de aprovação do ponto de verificação DLIO, comparamos o DapuStor R6060 de 122 TB com o Solidigm P5336 de 122.88 TB, o Solidigm P5336 de 61.44 TB e o Micron 6550 ION de 61.44 TB.

O DapuStor R6060 teve um bom início na primeira passagem, registrando o tempo mais rápido do grupo, com 465.33 segundos. No entanto, o desempenho caiu drasticamente nas passagens seguintes, com o R6060 subindo para 934.50 segundos na segunda passagem e 965.27 segundos na terceira. Isso o colocou em último lugar geral ao final do teste, atrás do Solidigm P5336 122.88TB com 757.31 segundos, do Solidigm P5336 61.44TB com 639.63 segundos e do Micron 6550 ION 61.44TB com 585.03 segundos.

 

No teste de benchmark DLIO com checkpoints, o DapuStor R6060 de 122 TB apresentou a mudança de desempenho mais acentuada conforme a carga de trabalho progredia. No início do teste, o SSD foi um dos melhores, mantendo-se bastante consistente na faixa de 460 segundos, empatado com o Micron 6550 ION de 61.44 TB e à frente dos dois SSDs da Solidigm. No entanto, à medida que o número de checkpoints aumentava, o R6060 passou a levar um tempo significativamente maior, chegando à faixa de 900 a 1000 segundos para muitos dos checkpoints restantes.

Conclusão

O DapuStor R6060 de 122.88 TB apresentou desempenho conforme o esperado. Leituras de blocos grandes, transferências sequenciais e cargas de trabalho de armazenamento direto de GPU foram os pontos fortes do SSD, enquanto gravações aleatórias de blocos pequenos representaram o ponto fraco evidente. No teste FIO, o R6060 atingiu 11,554 MB/s em leitura sequencial de 128K e 3,920.6 MB/s em gravação sequencial de 128K, manteve uma taxa de transferência praticamente estável entre 3,913 MB/s e 3,916 MB/s durante a varredura de gravação aleatória de 64K, alcançou 13,274.8 MB/s em leitura aleatória de 64K, subiu para 817.7 mil IOPS em leitura aleatória de 16K e atingiu o pico de 2.061 milhões de IOPS em leitura aleatória de 4K. Os resultados de gravação aleatória de 16K foram o ponto fraco, onde o SSD ficou bem abaixo dos SSDs focados em gravação presentes em nosso ranking.

Vista frontal do DapuStor R6060 de 122 TB

O GDSIO seguiu o mesmo padrão. O R6060 apresentou desempenho irregular na seção de leitura de 16K, mas teve um desempenho excelente quando os tamanhos de transferência aumentaram, liderando o grupo de comparação tanto na taxa de transferência de leitura sequencial de 128K quanto de 1M com maior número de threads, atingindo 5.9 GiB/s na taxa de transferência de leitura sequencial de 1M e ficando em primeiro lugar no ranking de IOPS de gravação sequencial de 128K em toda a gama de threads. A latência nos testes diretos com GPU em blocos maiores também foi geralmente boa.

A DapuStor oferece o R6060 em uma ampla gama de formatos, com opções U.2, E3.L e E1.L que variam de 15.36 TB a 122.88 TB, além de uma versão de 245 TB no topo da linha. Essa variedade oferece flexibilidade aos integradores, mas também aumenta a importância de uma verificação prévia de compatibilidade. A variante E3.L de 122.88 TB e 2 TB que testamos está fora dos padrões de implementação U.2 e E3.S mais comuns em data centers, e o formato EDSFF em geral ainda exige uma análise cuidadosa do compartimento da unidade, espessura, comprimento e alocação de pistas PCIe antes da compra. Uma unidade de 2 TB não caberá em um slot de 1 TB, e uma unidade E3.L não se encaixará em um compartimento E3.S. Isso é comum na integração de EDSFF atualmente, mas vale a pena mencionar para quem estiver implementando essas variantes mais densas pela primeira vez.

Para os níveis de armazenamento para os quais o R6060 foi projetado, ele teve um bom desempenho e oferece à DapuStor uma opção confiável de QLC Gen5 de alta capacidade.

Página do produto – DapuStor R6060 122TB

Envolva-se com a StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed

Lyle Smith

Lyle é redator da StorageReview, onde aborda uma ampla gama de tópicos de TI para usuários finais e empresas.