Home Empreendimento Análise do SSD KIOXIA CM6 PCIe 4.0

Análise do SSD KIOXIA CM6 PCIe 4.0

by Adam Armstrong

Os SSDs NVMe assumiram como os melhores desempenhos em toda a linha. Eles começaram fazendo grandes trancos e barrancos nas unidades SAS e SATA, mas nos últimos anos foram ganhando lentamente um pouco mais de desempenho a cada iteração. Há um limite superior com PCIe 3.0 e as unidades atuais estão atingindo-os. Mas agora com as CPUs AMD EPYC 7002 de segunda geração, o PCIe 4.0 está aqui e a KIOXIA está aproveitando-o com os SSDs CM6.

Os SSDs NVMe assumiram como os melhores desempenhos em toda a linha. Eles começaram fazendo grandes trancos e barrancos nas unidades SAS e SATA, mas nos últimos anos foram ganhando lentamente um pouco mais de desempenho a cada iteração. Há um limite superior com PCIe 3.0 e as unidades atuais estão atingindo-os. Mas agora com a segunda geração CPUs AMD EPYC 7002, o PCIe 4.0 está aqui e a KIOXIA está aproveitando-o com os SSDs CM6.

KIOXIACM6

A KIOXIA anunciou as novas unidades PCIe 4.0, CM6 e CD6, como uma demonstração no último Flash Memory Summit, nos tempos há muito esquecidos dos eventos físicos. Na época, eles eram os primeiros SSDs PCIe 4.0 e, até o momento, a série CM6 SSD ainda pode ser uma das poucas, mesmo que apenas SSDs PCIe 4.0 para empresas. O grande negócio com as novas unidades será o desempenho superior: cotado para atingir até 6.9 GB/s e 1.4 milhão de IOPS de leitura. Esses são alguns números teóricos impressionantes. As unidades também vêm com NVMe-MI em banda, log de eventos persistente e granularidade de namespace.

Parte inferior KIOXIA CM6

O KIOXIA CM6 é um fator de forma U.3, compatível com SFF-TA-1001, permitindo que sejam usados ​​em backplanes habilitados para modo triplo. O CM6 vem em uma ampla gama de capacidades, variando de 800 GB até 30.72 TB. As unidades vêm em um sabor de leitura intensiva (CM6-R) e uso misto (CM6-V), dependendo das necessidades dos usuários. Além dos modelos específicos de casos de uso, há uma variedade de versões seguras, incluindo um Sanitize Instat Erase (SIE), um Self-Encrypting Drive (SED) e um modelo FIPS 140-2 (Nível 2). A unidade também possui porta dupla para fornecer alta disponibilidade.

Lado KIOXIA CM6

Para esta análise, estamos analisando um KIOXIA CM6-V com 6.4 TB de capacidade.

Especificações KIOXIA CM6 PCIe 4.0

Modelo CM6-R (leitura intensiva) CM6-V (uso misto)
Fator de Forma Altura Z de 2.5 polegadas e 15 mm
Capacidade 1 960 GB, 1.92 TB, 3.84 TB, 7.68 TB, 15.36 TB, 30.72 TB 800 GB, 1.6 TB, 3.2 TB, 6.4 TB, 12.8 TB
Interface PCIe Gen3/4, 1×4 e 2×2
Compliance PCIe 4.0 e NVMe 1.4
Tipo NAND KIOXIA BiCS FLASH96 camada 3D TLC
Leitura Seqüencial Gen3 = até 3,500 MB/s
Gen4 = até 6,900 MB/s
Gen3 = até 3,500 MB/s
Gen4 = até 6,900 MB/s
Escrita Seqüencial Gen3 = até 3,100 MB/s
Gen4 = até 4,200 MB/s
Gen3 = até 3,100 MB/s
Gen4 = até 4,200 MB/s
Leitura aleatória Gen3 = até 800 IOPS
Gen4 = até 1.4 milhões de IOPS
Gen3 = até 800 IOPS
Gen4 = até 1.4 milhões de IOPS
Random Write Gen3 = até 155 IOPS
Gen4 = até 170 IOPS
Gen3 = até 290 IOPS
Gen4 = até 350 IOPS
Consumo de energia Ativo: 20W; Ocioso: <5W
resistencia 1 DWPD por 5 anos 3 DWPD por 5 anos
BER incorrigível 1 setor por 10^17 bits lidos
Taxa de câmbio MTTF 2.5 milhões de horas / 0.35%
Temperatura de Operação 0 a 70C

Desempenho

Mesa de teste

Nossas novas análises de SSD PCIe Gen4 Enterprise aproveitam um Lenovo Think System SR635 para testes de aplicativos e benchmarks sintéticos. O ThinkSystem SR635 é uma plataforma AMD de CPU única bem equipada, oferecendo potência de CPU bem acima do necessário para enfatizar o armazenamento local de alto desempenho. É também a única plataforma em nosso laboratório (e uma das poucas no mercado atualmente) com baias PCIe Gen4 U.2. Os testes sintéticos não exigem muitos recursos da CPU, mas ainda utilizam a mesma plataforma Lenovo. Em ambos os casos, a intenção é mostrar o armazenamento local da melhor maneira possível, de acordo com as especificações máximas de unidade do fornecedor de armazenamento.

PCIe Gen4 sintético e plataforma de aplicativos (Lenovo ThinkSystem SR635)

  • 1 x AMD 7452 (2.35 GHz x 32 núcleos)
  • 8 x 64 GB DDR4-3200 MHz ECC DRAM
  • CentOS 7.7 1908
  • ESXi 6.7u3

Plataforma de aplicativos PCIe Gen3 (Lenovo Think System SR850)

  • 4 x CPU Intel Platinum 8160 (2.1 GHz x 24 núcleos)
  • 16 x 32GB DDR4-2666Mhz ECC DRAM
  • 2 x placas RAID 930-8i 12 Gb/s
  • 8 compartimentos NVMe
  • VMware ESXI 6.7u3

Plataforma Sintética PCIe Gen3 (Dell PowerEdge R740xd)

  • 2 x CPU Intel Gold 6130 (2.1 GHz x 16 núcleos)
  • 4 x 16 GB DDR4-2666 MHz ECC DRAM
  • 1 placa RAID PERC 730 2GB 12Gb/s
  • Adaptador NVMe Complementar
  • Ubuntu-16.04.3-desktop-amd64

Sendo o primeiro conjunto de análises em uma nova plataforma, incluímos os resultados anteriores da unidade, que são comparações aproximadas, mas não 100% de maçãs para maçãs, pois estavam sendo testadas em uma plataforma mais antiga. Nossas diferenças de teste sintético não terão muita distorção nos resultados, mas as cargas de trabalho de aplicativos trabalhando na plataforma AMD de CPU única versus plataforma Intel de CPU quádrupla podem até certo ponto. Em nossos testes MySQL, um dos novos produtos Gen4 KIOXIA assumiu a liderança, mas a latência do servidor SQL foi média. Com apenas duas unidades Gen4 que pudemos publicar, não temos uma quantidade significativa de dados comparáveis, mas é algo a observar ao visualizar esses resultados. Também aumentamos nossos testes sintéticos para aproveitar os SSDs mais rápidos, agora mostrando resultados de teste com contagens de thread de pico mais altas.

Histórico de testes e comparáveis

Laboratório de teste StorageReview Enterprise fornece uma arquitetura flexível para realizar benchmarks de dispositivos de armazenamento corporativo em um ambiente comparável ao que os administradores encontram em implantações reais. O Enterprise Test Lab incorpora uma variedade de servidores, redes, condicionamento de energia e outras infraestruturas de rede que permitem que nossa equipe estabeleça condições do mundo real para avaliar com precisão o desempenho durante nossas análises.

Incorporamos esses detalhes sobre o ambiente de laboratório e protocolos em revisões para que os profissionais de TI e os responsáveis ​​pela aquisição de armazenamento possam entender as condições em que alcançamos os resultados a seguir. Nenhuma de nossas análises é paga ou supervisionada pelo fabricante do equipamento que estamos testando. Detalhes adicionais sobre o Laboratório de teste StorageReview Enterprise e uma visão geral de seus recursos de rede estão disponíveis nessas respectivas páginas.

Análise de carga de trabalho do aplicativo

Para entender as características de desempenho dos dispositivos de armazenamento corporativo, é essencial modelar a infraestrutura e as cargas de trabalho de aplicativos encontradas em ambientes de produção ao vivo. Nossos benchmarks para o KIOXIA CM6 são, portanto, os Desempenho OLTP do MySQL via SysBench e Desempenho OLTP do Microsoft SQL Server com uma carga de trabalho TCP-C simulada. Para nossas cargas de trabalho de aplicativo, cada unidade executará 4 VMs configuradas de forma idêntica.

Desempenho do SQL Server

Cada VM do SQL Server é configurada com dois vDisks: volume de 100 GB para inicialização e um volume de 500 GB para o banco de dados e arquivos de log. Do ponto de vista dos recursos do sistema, configuramos cada VM com 8 vCPUs, 64 GB de DRAM e aproveitamos o controlador LSI Logic SAS SCSI. Embora nossas cargas de trabalho Sysbench testadas anteriormente tenham saturado a plataforma tanto em E/S de armazenamento quanto em capacidade, o teste de SQL procura desempenho de latência.

Este teste usa o SQL Server 2014 em execução em VMs convidadas do Windows Server 2012 R2 e é enfatizado pelo Benchmark Factory para bancos de dados da Quest. StorageReview's Protocolo de teste OLTP do Microsoft SQL Server emprega o rascunho atual do Benchmark C (TPC-C) do Transaction Processing Performance Council, um benchmark de processamento de transações on-line que simula as atividades encontradas em ambientes de aplicativos complexos. O benchmark TPC-C chega mais perto do que os benchmarks sintéticos de desempenho para medir os pontos fortes de desempenho e os gargalos da infraestrutura de armazenamento em ambientes de banco de dados. Cada instância de nossa VM SQL Server para esta revisão usa um banco de dados SQL Server de 333 GB (escala 1,500) e mede o desempenho transacional e a latência sob uma carga de 15,000 usuários virtuais.

Configuração de teste do SQL Server (por VM)

  • Windows Server 2012 R2
  • Ocupação de armazenamento: 600 GB alocados, 500 GB usados
  • SQL Server 2014
    • Tamanho do banco de dados: escala 1,500
    • Carga de cliente virtual: 15,000
    • Memória RAM: 48 GB
  • Duração do teste: 3 horas
    • 2.5 horas de pré-condicionamento
    • período de amostra de 30 minutos

Para nosso benchmark transacional do SQL Server, o KIOXIA CM6 ficou em quarto lugar geral com 12,633.6 TPS, embora estivesse apenas 10.6 TPS abaixo do melhor desempenho.

KIOXIA CM6 SQLTPS

Com a latência média do SQL Server, o CM6 teve uma latência média de 5.5 ms, a mesma de seu primo CD6 SSD.

Desempenho do Sysbench

O próximo benchmark de aplicativo consiste em um Banco de dados MySQL OLTP Percona medida via SysBench. Este teste mede o TPS (transações por segundo) médio, a latência média e também a latência média do 99º percentil.

Cada sysbench A VM é configurada com três vDisks: um para inicialização (~92 GB), um com o banco de dados pré-construído (~447 GB) e o terceiro para o banco de dados em teste (270 GB). Do ponto de vista dos recursos do sistema, configuramos cada VM com 8 vCPUs, 60 GB de DRAM e aproveitamos o controlador LSI Logic SAS SCSI.

Configuração de teste do Sysbench (por VM)

  • CentOS 6.3 64 bits
  • Percona XtraDB 5.5.30-rel30.1
    • Tabelas de banco de dados: 100
    • Tamanho do banco de dados: 10,000,000
    • Segmentos de banco de dados: 32
    • Memória RAM: 24 GB
  • Duração do teste: 3 horas
    • 2 horas de pré-condicionamento 32 tópicos
    • 1 hora 32 tópicos

Olhando para nosso benchmark transacional Sysbench, o KIOXIA CM6 teve 8,632 TPS novamente ficando em quarto lugar em nosso pacote comparável.

Sistema Sysbench KIOXIA CM6

Com a latência média do Sysbench, o CM6 ficou em quarto lugar novamente com 14.82 ms.

Para nossa latência de pior cenário (99º percentil), o CM6 ficou onde está confortável, em quarto lugar, com 29.86 ms.

Análise de Carga de Trabalho do VDBench

Quando se trata de dispositivos de armazenamento de comparação, o teste de aplicativo é o melhor e o teste sintético vem em segundo lugar. Embora não seja uma representação perfeita das cargas de trabalho reais, os testes sintéticos ajudam a estabelecer a linha de base dos dispositivos de armazenamento com um fator de repetibilidade que facilita a comparação entre soluções concorrentes. Essas cargas de trabalho oferecem uma variedade de perfis de teste diferentes, desde testes de "quatro cantos", testes comuns de tamanho de transferência de banco de dados até capturas de rastreamento de diferentes ambientes VDI. Todos esses testes utilizam o gerador de carga de trabalho vdBench comum, com um mecanismo de script para automatizar e capturar resultados em um grande cluster de teste de computação. Isso nos permite repetir as mesmas cargas de trabalho em uma ampla variedade de dispositivos de armazenamento, incluindo arrays flash e dispositivos de armazenamento individuais. Nosso processo de teste para esses benchmarks preenche toda a superfície da unidade com dados e, em seguida, particiona uma seção da unidade igual a 25% da capacidade da unidade para simular como a unidade pode responder às cargas de trabalho do aplicativo. Isso é diferente dos testes de entropia total, que usam 100% da unidade e os colocam em estado estacionário. Como resultado, esses números refletirão velocidades de gravação sustentadas mais altas.

perfis:

  • Leitura aleatória em 4K: 100% de leitura, 128 threads, 0-120% de atualização
  • Gravação aleatória em 4K: 100% de gravação, 128 threads, 0-120% de atualização
  • Leitura aleatória de 4K (carga alta): 100% de leitura, 512 threads, 0-120% iorado
  • 4K Random Write (alta carga): 100% Write, 512 threads, 0-120% iorate
  • Leitura sequencial de 64K: 100% de leitura, 32 threads, 0-120% iorado
  • Gravação sequencial de 64K: 100% gravação, 16 threads, 0-120% iorado
  • Leitura sequencial de 64K (carga alta): 100% de leitura, 64 threads, 0-120% iorado
  • Gravação sequencial de 64K (carga alta): 100% Gravação, 64 threads, 0-120% iorado
  • Banco de Dados Sintético: SQL e Oracle
  • Clone completo de VDI e rastreamentos de clone vinculados

Comparáveis:

Em nossa primeira análise de carga de trabalho VDBench, Random 4K Read, o KIOXIA CM6 apresentou um desempenho impressionante, chegando a 846,288 IOPS com uma latência de 150 µs. Isso coloca a unidade no primeiro lugar.

Leitura KIOXIA CM6 4K

As novas unidades PCIe 4.0 podem suportar uma carga maior e seríamos negligentes se não as pressionássemos um pouco mais para ver o que elas podem fazer. Portanto, com uma carga alta de leitura aleatória de 4K, o CM6 conseguiu atingir o pico de 1,507,564 IOPS com uma latência de 337.9 µs. Muito melhor do que sua contraparte CD6.

KIOXIA CM6 4K leitura alta

Para gravação aleatória de 4K, ficou em terceiro lugar geral. Ele funcionou com latência abaixo de 100µs até cerca de 490K IOPS e atingiu o pico de 548,169 IOPS com uma latência de 226.4µs.

A alta carga de gravação aleatória de 4K fez com que o CM6 chegasse ao pico de 549,103 IOPS com uma latência de 922 µs atrás do CD6 desta vez.

Mudando para cargas de trabalho sequenciais, o CM6 teve a chance de brilhar mais uma vez, ocupando o primeiro lugar na leitura de 64K com uma pontuação máxima de 97,779 IOPS ou 6.11 GB/s com uma latência de apenas 325µs.

KIOXIA CM6 64k leituraA leitura sequencial de 64K de alta carga foi semelhante ao posicionamento na leitura de 4K com o pico CM6 de 101,018 IOPS ou 6.3 GB/s com uma latência de 629 µs.

KIOXIA CM6 64K leitura altaA gravação de 64K mostrou o CM6 com uma pontuação de pico forte, embora o desempenho caísse após o pico, chegando em terceiro. O desempenho máximo foi de cerca de 49K IOPS ou 3.1 GB/s com uma latência de cerca de 50 µs.

A gravação sequencial de alta carga de 64K viu o CM6 ter um pico mais alto, mas caiu no desempenho depois. O CM6 atingiu um pico de cerca de 49K IOPs ou 3.1 GB/s em uma latência tão baixa que mal conseguimos vê-lo antes de cair.

Nosso próximo conjunto de testes são nossas cargas de trabalho SQL: SQL, SQL 90-10 e SQL 80-20. Começando com SQL, o KIOXIA CM6 ficou em segundo lugar geral com um pico de 266,458 IOPS em uma latência de 119µs.

 

Para SQL 90-10, o CM6 ficou em segundo novamente com um desempenho máximo de 265,276 IOPS em uma latência de 119.2 µs.

O SQL 80-20 deu ao CM6 a chance de se exibir ao chegar em primeiro lugar com um desempenho máximo de 263,819 IOPS 119.4µs.

A seguir estão nossas cargas de trabalho Oracle: Oracle, Oracle 90-10 e Oracle 80-20. Começando com o Oracle, o CM6 ficou em primeiro lugar mais uma vez com um desempenho máximo de 271,230 IOPS em uma latência de 128.6 µs.

O Oracle 90-10 ficou em segundo lugar no CM6 com um desempenho máximo de 202,341 IOPS em uma latência de apenas 107.4 µs.

O CM6 passou direto pela concorrência para ficar em primeiro lugar mais uma vez no Oracle 80-20 com um pico de 206,733 IOPS em uma latência baixa de 104.7 µs.

Em seguida, mudamos para nosso teste de clone VDI, Full and Linked. Para inicialização VDI Full Clone (FC), o CM6 ficou em primeiro lugar com 223,668 IOPS e uma latência de 153.5 µs.

Para VDI FC Initial Login, o CM6 caiu para o terceiro lugar com um desempenho máximo de 154,836 IOPS em uma latência de 189µs.

Nosso benchmark VDI FC Monday Login viu o CM6 ficar em terceiro lugar com um pico de 98,867 IOPS com uma latência de 158.4 µs.

Para VDI Linked Clone (LC) Boot, o KIOXIA CM6 voltou ao primeiro lugar com uma pontuação máxima de 115,058 IOPS em uma latência de 137.7 µs.

O login inicial do VDI LC é um pouco difícil de ler no gráfico, mas o CM6 pousou no meio do pacote com um pico de 38,848 IOPS em uma latência de 202.4 µs antes de cair um pouco.

Por fim, o VDI LC Monday Login teve o CM6 mais uma vez com o melhor desempenho, com uma pontuação máxima de 96,008 IOPS e uma latência de 162.5 µs.

Conclusão

O KIOXIA CM6 foi um dos, senão o, primeiro SSD PCIe 4.0 para a empresa. As novas unidades vêm com a promessa de maior desempenho, neste caso até 6.9 GB/s e até 1.4 milhão de IOPS. O CM6 tem porta dupla, adicionando um nível de alta disponibilidade ao drive. A unidade vem em uma ampla gama de capacidade, de 800 GB a impressionantes 30.72 TB, com 9 opções de capacidade entre elas. O CM6 possui um modelo de leitura intensiva e de uso misto com 1 e 3 DWPD, respectivamente. E o SSD vem com uma variedade de opções de modelos seguros.

Para desempenho, executamos nossa barragem usual de Application Workload Analysis e VDBench com algumas exceções. Tivemos que pular o teste Houdini porque a plataforma de teste é Intel e as unidades KIOXIA seriam prejudicadas pelas portas Gen3. No VDBench, adicionamos um teste de carga mais alto para estressar um pouco mais as novas unidades, pois elas foram projetadas para lidar com isso.

Em nossa análise de carga de trabalho do aplicativo, executamos o SQL Server e o Sysbench. Com SQL Server o CM6 ficou em quarto lugar tanto em TPS quanto em latência média com 12,633.6 TPS e 5.5ms, pontuação ainda muito boa. Com o Sysbench, a unidade novamente ficou em quarto lugar com 8,632 TPS, latência média de 14.82 ms e latência de 29.86 ms em nosso pior cenário.

No VDBench, a unidade realmente brilhou. O CM6 teve o melhor desempenho em vários de nossos benchmarks. Os destaques básicos incluem 846K IOPS em leitura de 4K, 1.5 milhão de IOPS em alta carga de leitura em 4K, 548K IOPS em alta carga de leitura em 4K, 549K IOPS em alta carga de gravação em 4K, 6.1 GB/s em leitura de 64K, 6.3 GB/s em alta carga de leitura em 64K, e 3.1 GB/s em gravação de 64 K e alta carga de gravação de 64 K. O SQL viu picos de 266K IOPS, 265K IOPS no SQL 90-10 e 264K IOPS no SQL 80-20. A Oracle nos deu picos de 271K IOPS, 202K IOPS no Oracle 90-10 e 207K IOPS no Oracle 80-20. O VDI FC nos forneceu 224 IOPS de inicialização, 155 IOPS de login inicial e 99 IOPS no login de segunda-feira. O VDI LC registrou inicialização de 115 IOPS, login inicial de 39 IOPS e login de segunda-feira de 96 IOPS.

Esta análise e a do CD6 analisam especificamente o PCIe 4.0 e o futuro dos dispositivos de armazenamento à medida que mais entram no mercado. Não há muitos fornecedores de servidores produzindo suporte frontal para PCIe 4.0, com a Lenovo sendo a única em nosso laboratório até o momento. A Lenovo foi rápida em aproveitar todas as vantagens oferecidas pelos processadores AMD EPYC 2 de 7002ª geração, antecipando produtos de armazenamento como o KIOXIA CM6. Mas para a KIOXIA, isso os coloca na posição interessante de estar à frente dos outros, mas todo o potencial de sua unidade só é alcançado com servidores baseados em AMD mais novos (até que a Intel decida entrar no jogo também). Por enquanto, o CM6 ainda funcionará em equipamentos legados e estará pronto para liberar mais desempenho à medida que as empresas atualizam.

SSDs corporativos KIOXIA

Discuta no Reddit

Envolva-se com a StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | Facebook | RSS feed