Durante a GTC 2026, a VDURA apresentou atualizações para sua Plataforma de Dados que melhoram a utilização da GPU e a eficiência de armazenamento em ambientes de IA. O anúncio inclui a disponibilidade geral do Acesso Direto à Memória Remota (RDMA), uma prévia de sua tecnologia de Tiering Sensível ao Contexto e configurações de infraestrutura validadas baseadas em CPUs AMD EPYC Turin e rede NVIDIA ConnectX-7.
As atualizações visam eliminar gargalos na movimentação de dados entre clusters de GPUs e armazenamento, além de otimizar o posicionamento de dados em diferentes camadas de armazenamento para cargas de trabalho de treinamento e inferência de IA em larga escala. O RDMA permite caminhos de dados diretos para GPUs.
A VDURA adicionou suporte a RDMA em toda a sua plataforma, permitindo que servidores com GPU acessem o armazenamento diretamente pela rede, sem a necessidade de CPU. Isso possibilita transferências de dados da GPU para o armazenamento que ignoram os caminhos tradicionais mediados pelo kernel e pela CPU, reduzindo a latência e aumentando a taxa de transferência.
A implementação integra-se ao VDURA DirectFlow, a camada de movimentação de dados da empresa, para garantir que todo o tráfego do servidor GPU utilize RDMA. Ao eliminar a sobrecarga da CPU no caminho de dados, os recursos computacionais permanecem dedicados ao treinamento de modelos e às tarefas de inferência. Essa abordagem visa sustentar taxas de utilização de GPU mais altas, minimizando a latência do pipeline em clusters de IA distribuídos.
A hierarquização sensível ao contexto visa a eficiência do posicionamento de dados.
A VDURA também detalhou a primeira fase de seu recurso de Tiering Sensível ao Contexto, com lançamento previsto para o final deste ano. Esse recurso introduz o posicionamento automatizado de dados em diferentes camadas de armazenamento com base no comportamento da carga de trabalho e nos padrões de acesso.
A fase inicial estende o buffer do DirectFlow para SSDs NVMe locais, permitindo que os dados acessados com frequência residam mais próximos dos recursos de computação. Isso reduz a dependência de armazenamento compartilhado ou conectado à rede para dados frequentemente acessados e melhora os tempos de resposta para cargas de trabalho ativas.
A plataforma também introduz controles de gravação KVCache, que persistem seletivamente apenas os dados de inferência críticos em armazenamento durável. Isso reduz a atividade de gravação desnecessária, mantendo as garantias de persistência exigidas pelos pipelines de inferência de produção.
Além disso, o VDURA está implementando uma estrutura unificada de Hierarquia de Cache de Contexto que abrange DRAM e SSD local. Isso possibilita acesso de leitura e gravação em alta velocidade, alinhado ao desempenho da classe LMCache, suportando casos de uso como inferência LLM de contexto longo e geração aumentada por recuperação.
A VDURA indicou que as fases futuras do Context-Aware Tiering se expandirão para o posicionamento de dados com reconhecimento de aplicativos, melhoria da coerência de cache entre nós e suporte para componentes de infraestrutura emergentes, como as DPUs NVIDIA BlueField-4.
A empresa também apresentou configurações de plataforma otimizadas que combinam processadores AMD EPYC Turin com adaptadores de rede NVIDIA ConnectX-7. Essas configurações foram projetadas para complementar caminhos de dados habilitados para RDMA e oferecer suporte à comunicação de alta taxa de transferência e baixa latência entre clusters de GPUs e sistemas de armazenamento.
Foco em pipeline de dados de IA de pilha completa
Ken Claffey, CEO da VDURA, destacou a plataforma de armazenamento de IA da empresa, que abrange toda a hierarquia de dados, da memória ao armazenamento de longo prazo, e enfatizou seu desempenho. Ele afirmou que a plataforma utiliza RDMA para acesso direto aos dados, sem necessidade de CPU, e conta com o recurso de Tiering Sensível ao Contexto para posicionar os dados em diferentes camadas de armazenamento. Claffey observou que essas inovações ajudam as organizações a suportar modelos maiores, lidar com mais solicitações de inferência e escalar a infraestrutura de IA, atendendo aos requisitos de confiabilidade da IA em produção.
A abordagem combinada visa suportar modelos de maior tamanho, aumentar a capacidade de inferência e melhorar a eficiência da infraestrutura, mantendo os requisitos de confiabilidade para implantações de IA em produção.
Disponibilidade
O RDMA já está disponível nas plataformas VDURA V5000 e V7000. A Fase 1 do Context-Aware Tiering deverá estar disponível para o público em geral ainda em 2026, com programas de acesso antecipado já em andamento.




Amazon