ArmazenamentoReview.com

MinIO apresenta MemKV para memória de inferência de IA em escala de petabytes.

AI  ◇  Empreendimento

A MinIO anunciou o MemKV, um memória de contexto Loja projetada para solucionar um gargalo crescente em ambientes de inferência de IA em larga escala. Posicionada como o segundo componente principal do portfólio da empresa, juntamente com AIStorO MemKV estende a infraestrutura de dados do MinIO para a camada de memória, visando um contexto persistente e compartilhado para cargas de trabalho de IA com agentes que operam em clusters de GPUs.

MinIO AIStor

À medida que os sistemas de IA evoluem de interações de resposta única para raciocínio em múltiplas etapas e execução de tarefas, manter o contexto ao longo dos ciclos de inferência tornou-se crucial. Nas arquiteturas atuais, o contexto é frequentemente perdido devido à capacidade limitada das camadas de memória adjacentes à GPU, como HBM e DRAM. Isso força as GPUs a recalcularem o contexto gerado anteriormente, aumentando a latência, a utilização de recursos computacionais e o consumo de energia. A MinIO caracteriza isso como um custo de recálculo que se agrava em grande escala, particularmente em ambientes de hiperescala e nuvem.

O MemKV foi projetado para mitigar esse problema, fornecendo uma camada de memória compartilhada e persistente capaz de recuperação em microssegundos na escala de petabytes. Ao manter o contexto entre as operações de inferência, a plataforma reduz a computação redundante e melhora a eficiência geral do sistema. Em benchmarks internos, a MinIO relata melhorias no tempo até o primeiro token em níveis de concorrência de produção. Em uma implementação representativa com 128 GPUs e janelas de contexto de 128 mil tokens, a utilização da GPU aumentou de cerca de 50% para mais de 90%, resultando em economias significativas nos custos computacionais anuais.

A liderança da MinIO observou que a sobrecarga de recálculo historicamente era mascarada em implantações menores, mas se torna uma ineficiência estrutural em grande escala. À medida que os clusters de GPUs crescem, o custo de regenerar repetidamente o contexto aumenta tanto no consumo de energia quanto nos requisitos de infraestrutura, tornando necessários sistemas de memória dedicados para operações de IA sustentáveis.

Abordando a relação de compromisso entre memória e escala

A infraestrutura tradicional de IA impõe uma escolha entre velocidade e escalabilidade. Camadas de memória de alto desempenho, como HBM A memória DRAM oferece latência de microssegundos, mas tem capacidade limitada e é cara. Por outro lado, os sistemas de armazenamento oferecem escalabilidade, mas introduzem latência de milissegundos, o que é inadequado para inferência em tempo real e raciocínio de contexto extenso.

Micron HBM4

O MemKV foi projetado para preencher essa lacuna, introduzindo uma camada de memória compartilhada que combina acesso de baixa latência com capacidade em larga escala. Construída para rodar em NVIDIA BlueField-4 STX e integrada com NVIDIA Dynamo e NIXL, a plataforma permite que um cluster de GPUs inteiro acesse um conjunto comum de dados de contexto em velocidades alinhadas aos requisitos de inferência. Essa abordagem elimina a necessidade de transferir contexto entre camadas distintas de memória e armazenamento, reduzindo a latência e melhorando o desempenho.

NVIDIA BlueField-4

Arquitetura otimizada para cargas de trabalho de inferência

O MemKV foi desenvolvido especificamente para o caminho de dados de inferência e está alinhado com a descrição da camada G3.5 da MinIO na hierarquia de memória da GPU. Ele oferece capacidade em escala de petabytes em infraestrutura baseada em NVMe, mantendo características de acesso em nível de microssegundos, desacoplando efetivamente a escala de memória dos recursos de computação da GPU.

O sistema evita as abstrações de armazenamento tradicionais, movendo os dados diretamente do NVMe para o caminho de dados da IA ​​por meio de uma abordagem de ponta a ponta. Transporte RDMAIsso elimina a sobrecarga dos protocolos HTTP, da tradução do sistema de arquivos e dos servidores de armazenamento intermediários, que são comuns em arquiteturas baseadas em objetos e arquivos.

Fonte: Google

Os principais elementos arquitetônicos incluem a execução nativa em NVIDIA BlueField-4 STX Como um binário ARM64 incorporado na camada de armazenamento, reduzindo a dependência de nós de armazenamento x86 externos. As transferências de dados ocorrem via RDMA da memória da GPU para o NVMe, ignorando as pilhas de armazenamento convencionais. O MemKV também utiliza tamanhos de bloco maiores, variando de 2 MB a 16 MB, otimizados para os padrões de throughput da GPU em vez dos blocos de armazenamento legados de 4 KB. O desempenho da rede está alinhado com as modernas estruturas de alta velocidade, incluindo NVIDIA Spectrum-X Ethernet e PCIe Gen6, permitindo a movimentação de dados próxima à velocidade da rede em todo o cluster.

Disponibilidade

O MinIO MemKV já está disponível.

Envolva-se com a StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed

Haroldo Fritts

Estou na indústria de tecnologia desde que a IBM criou a Selectric. Minha formação, porém, é escrever. Então decidi sair do negócio de pré-vendas e voltar às minhas raízes, escrevendo um pouco, mas ainda envolvido com tecnologia.