O Pliops XDP LightningAI aumenta a inferência de LLM ao descarregar o cache KV, permitindo uma IA mais rápida e escalável com integração com NVIDIA Dynamo.
A Pliops está na vanguarda da aceleração de dados, especializando-se em soluções de hardware e software projetadas para otimizar e turbinar cargas de trabalho com uso intensivo de dados em data centers corporativos e em nuvem. O Pliops Extreme Data Processor (XDP) foi desenvolvido para aprimorar o desempenho e a eficiência da infraestrutura de dados moderna, gerenciando o fluxo de dados entre aplicativos e armazenamento, eliminando gargalos e reduzindo a latência. O XDP é excepcionalmente adequado para ambientes exigentes que exigem alto rendimento e latência mínima, como aqueles que sustentam IA, bancos de dados complexos, análises avançadas e sistemas de armazenamento expansivos em larga escala.
À medida que a IA se torna cada vez mais um pilar fundamental das operações comerciais e da inovação, as demandas por infraestrutura de data center aumentaram exponencialmente, especialmente para cargas de trabalho de inferência de IA. Essas cargas de trabalho exigem o processamento rápido e eficiente de grandes volumes de dados, sobrecarregando imensamente os recursos de computação e armazenamento existentes. As organizações enfrentam desafios crescentes na implantação de infraestrutura escalável, econômica e com baixo consumo de energia, capaz de atender consistentemente aos rigorosos SLAs de desempenho.
O Pliops XDP LightningAI enfrenta esses desafios urgentes de frente. Esta solução inovadora apresenta um mecanismo de aceleração de armazenamento universal projetado para integração perfeita com principais plataformas de servidores, como os sistemas Dell PowerEdge, e trabalhar em conjunto com soluções de inferência avançadas como NVIDIA Dínamo, prometendo operações de IA eficientes.
Por que o cache KV é essencial para inferência LLM escalável
A mecânica e a importância do cache KV
No cerne da otimização de Modelos de Linguagem Grandes baseados em transformadores está o cache KV, uma técnica fundamental que mitiga redundâncias computacionais durante a inferência autorregressiva. Em arquiteturas de transformadores, a geração de cada novo token requer atenção calculada entre a consulta do token atual e as chaves e valores de todos os tokens anteriores.
Sem um mecanismo de cache eficaz, esse processo recomputaria redundantemente essas chaves e valores para cada token na sequência a cada etapa de geração. Isso resulta em uma complexidade computacional de O(n²), ou complexidade quadrática, para uma sequência de comprimento n. O cache KV contorna isso armazenando as matrizes de chaves e valores computadas dos tokens anteriores diretamente na memória da GPU; o modelo pode reutilizar esses tensores pré-computados para etapas subsequentes. Essa reutilização reduz drasticamente a complexidade computacional para O(n) após o processamento inicial do token, acelerando significativamente as velocidades de inferência.
Esse ganho de eficiência é fundamental para aplicações de IA em tempo real, como chatbots interativos, serviços de tradução instantânea e geração dinâmica de código, onde a latência é um fator crítico que impacta diretamente a experiência do usuário e a viabilidade da aplicação.
Restrições de memória da GPU: o gargalo oculto
Embora o cache KV melhore substancialmente a velocidade de inferência, ele impõe pressão sobre os recursos de memória da GPU. O tamanho do cache KV cresce linearmente com o comprimento da sequência (janela de contexto) e o tamanho do lote (número de solicitações simultâneas).
Em ambientes de nuvem multilocatários ou sistemas corporativos que atendem centenas, senão milhares, de solicitações simultâneas, esse consumo de memória pode esgotar rapidamente até mesmo a infraestrutura de GPU mais avançada. Esse esgotamento impõe compensações difíceis: reduzir o tamanho dos lotes (reduzindo a taxa de transferência), encurtar a duração dos contextos ou investir em mais GPUs (aumentando o CapEx).
Além disso, uma prática comum entre provedores de inferência é não persistir caches KV entre turnos ou mensagens do usuário. Isso significa que a complexidade computacional quadrática para tokens computados anteriormente é aplicada novamente a cada interação subsequente, anulando alguns potenciais ganhos de eficiência.
NVIDIA Dynamo: Repensando a inferência de LLM em escala
O que é NVIDIA Dynamo?
O NVIDIA Dynamo, um framework de código aberto transformador e lançado recentemente, foi projetado para enfrentar os complexos desafios do serviço de inferência LLM distribuído e desagregado. Com suporte a diversos backends, incluindo PyTorch, SGLang, TensorRT-LLM e vLLM, o Dynamo foi projetado explicitamente para escalar perfeitamente as operações de inferência de implantações de GPU única para clusters de mil GPUs. Ele apresenta inovações arquitetônicas significativas para combater as restrições de memória induzidas pelo cache KV, otimizando para obter o máximo rendimento e a mínima latência.
Arquitetura de Atendimento Desagregada
Uma inovação fundamental do NVIDIA Dynamo é sua abordagem de serviço desagregado. Essa arquitetura desacopla estrategicamente a fase de pré-preenchimento, que exige muito processamento, da fase de decodificação vinculada à memória (gerando tokens subsequentes). Ao alocar de forma inteligente essas fases distintas a pools de GPU especializados separados, o Dynamo permite a otimização independente de cada uma, resultando em uma utilização mais eficiente dos recursos e em um desempenho geral aprimorado.
Avanços no Cache KV
O NVIDIA Dynamo também incorpora recursos sofisticados de gerenciamento de cache KV. Seu Roteador Inteligente com reconhecimento de cache KV rastreia o estado e a localização dos dados de cache KV em toda a frota de GPUs. Isso permite que ele roteie de forma inteligente as solicitações de inferência recebidas para GPUs com entradas de cache relevantes, minimizando a recomputação dispendiosa e a sobrecarga na transferência de dados.
Além disso, o Dynamo Distributed KV Cache Manager aborda diretamente as limitações de capacidade de memória implementando o offloading em camadas. Esse recurso permite que blocos de cache KV acessados com menos frequência ou com menor prioridade sejam movidos de HBMs rápidos e caros para soluções de armazenamento mais econômicas, como memória de CPU compartilhada, SSDs locais ou armazenamento de objetos em rede. Essa abordagem de armazenamento hierárquico permite que as organizações gerenciem e armazenem volumes significativamente maiores de dados de cache KV por uma fração do custo, aprimorando o desempenho de inferência e a eficiência econômica.
É importante esclarecer que, a partir de hoje, os recursos de descarregamento de cache KV descritos acima fazem parte do Dynamo roteiro futuro e ainda não estão disponíveis na versão de código aberto. Portanto, as implantações atuais do Dynamo de código aberto não oferecem suporte ao descarregamento do cache KV para armazenamento em camadas. Isso significa que, na prática, o desempenho do Dynamo ainda é limitado pela memória disponível da GPU.
Pliops XDP LightningAI: Resolvendo o cache KV em escala
Apresentamos o Pliops XDP LightningAI, que estabelece uma camada de memória ultrarrápida e escalável, com capacidade para petabytes, estrategicamente posicionada abaixo do HBM da GPU. Isso aborda as compensações críticas das organizações entre tamanho do lote, comprimento do contexto, complexidade do modelo e custos crescentes de hardware. A solução da Pliops combina seu ASIC XDP-PRO de ponta e seu KVIO Store. Ela permite que servidores GPU descarreguem com eficiência grandes quantidades de dados de cache KV para armazenamento SSD NVMe econômico, mantendo latências de acesso excepcionalmente baixas, abaixo de milissegundos.
Em implantações práticas, o aproveitamento do Pliops XDP LightningAI para descarregamento de cache KV resulta em praticamente nenhuma diferença perceptível em TTFT (Time-To-First-Token) em comparação com cenários em que todo o cache KV é retido no escasso e caro HBM. Isso permite que as organizações expandam drasticamente sua capacidade efetiva de memória para cache KV sem comprometer o desempenho crítico de baixa latência exigido por aplicações de IA em tempo real.
Integração perfeita por meio de design baseado em padrões
Uma vantagem do Pliops XDP LightningAI é o uso de padrões abertos, garantindo uma adoção sem complicações. A arquitetura nativa NVMe-oF da solução garante ampla compatibilidade com os ecossistemas de servidores de GPU existentes, dispensando modificações de hardware nos servidores para implantação. Ela utiliza NVMe-oF padrão sobre RDMA para sincronização de cache de alta velocidade e baixa latência entre clusters de GPU. Isso aproveita a infraestrutura de rede de data center existente, simplificando a implantação e reduzindo o atrito de integração.
A Pliops alcança isso com uma solução coesa construída a partir de duas tecnologias complementares: XDP LightningAI e FusIOnX. Embora esses componentes trabalhem juntos como parte da arquitetura geral, eles desempenham funções distintas. A solução Pliops XDP LightningAI é arquitetada em torno de um dispositivo de hardware dedicado com uma placa complementar PCIe alimentada por um ASIC XDP personalizado e uma matriz de SSDs.
O FusIOnX, por outro lado, é a plataforma de software complementar que orquestra e gerencia o uso inteligente do hardware XDP LightningAI. Trata-se de um sistema de descarregamento de cache KV desagregado que elimina a computação redundante, armazenando e reutilizando caches KV computados anteriormente. O FusIOnX fornece a inteligência necessária para identificar, armazenar e recuperar com eficiência dados de contexto que, de outra forma, exigiriam recomputação, acelerando assim a inferência de LLM. A pilha de software oferece diversas configurações adaptadas a diferentes cenários de implantação, incluindo uma pilha de produção vLLM com roteamento inteligente entre múltiplos nós de GPU e integração com frameworks como Dynamo e SGLang.
Arquitetura Pliops LightningAI FusIOnX
A arquitetura do sistema é construída sobre nós iniciadores, que abrigam as GPUs, e nós de destino LightningAI, responsáveis por descarregar o cache KV para armazenamento de alto desempenho. Esses nós se comunicam por uma rede de alta velocidade utilizando o protocolo NVMe-oF e as placas de rede padrão das DPUs.
Mergulhando mais profundamente no fluxo de dados, o trabalhador Nvidia Dynamo interage com o SDK do cliente FusIOnX dentro do contêiner de aplicação no servidor GPU. Este SDK facilita a comunicação via NVMe-oF por meio de DPUs ou NICs padrão com o servidor de armazenamento XDP LightningAI que hospeda o FusIOnX KV Store e uma placa de aceleração Pliops XDP Pro1.
LightningAI encontra NVIDIA Dynamo: benchmarks de desempenho
Os benchmarks de integração FusIOnX-Dynamo revelam ganhos de desempenho impressionantes em diversas configurações. Os testes foram conduzidos usando o modelo dinâmico Meta-Llama-3.1-70B-Instruct-FP8, executado com paralelismo tensorial de 2 (TP2).
Configuração de Teste
- Iniciador (Servidor GPU): Servidor Dell PowerEdge XE9680, configurado com:
- GPUs: 8 x NVIDIA H100 SXM, cada um com 80 GB de HBM3
- DRAMs: 2TB
- CPUs: Processadores Intel Xeon Platinum 8568Y+ de soquete duplo
- Networking: 2 adaptadores NVIDIA ConnectX-7 (400 Gbps)
- Alvo (Servidor de Armazenamento Pliops): Um nó Dell PowerEdge R860, configurado com:
- DRAMs: 512GB
- CPUs: Processadores Intel Xeon Gold 6418H de quatro soquetes
- Aceleração Pliops: 1 x cartão Pliops XDP Pro1
- Armazenamento: 24 SSDs NVMe Samsung PM1733a de 3.84 TB, fornecendo uma capacidade bruta substancial para descarregamento de cache KV
- Networking: 1 x placa adaptadora NVIDIA ConnectX-7 HHHL (400GbE, OSFP de porta única, PCIe 5.0 x16)
- Interconexão de rede: Esses dois servidores são conectados por meio do switch Ethernet NVIDIA SN5600 Spectrum-X de 800 Gbps, garantindo alta largura de banda e comunicação de baixa latência para tráfego NVMe-oF.
Principais métricas medidas:
- Tempo até o primeiro token (TTFT): Com que rapidez os usuários começam a ver o conteúdo gerado
- Tempo por Token de Saída (TPOT): Tempo entre tokens gerados
- Solicitações por segundo (RPS): Taxa de transferência do sistema
- Tokens por segundo (TPS): Velocidade de geração
Os benchmarks simularam conversas de vários turnos com comprimentos médios de prompt de 2,200 tokens e 100-230 tokens de saída por turno, com conversas abrangendo 2-28 turnos.
Desempenho de trabalhador único Dynamo
Configuração | TTFT (ms) | TPOT (ms) | #clientes | RPS |
---|---|---|---|---|
vLLM | 310 | 33 | 8 | 1.35 |
Pliops FusIOnX | 111 | 30 | 16 | 3.03 |
Ganho | 2.79x | - | 2x | 2.24x |
Desempenho de dois trabalhadores do Dynamo
Configuração | TTFT (ms) | TPOT (ms) | #clientes | RPS |
---|---|---|---|---|
vLLM | 557 | 40 | 26 | 3.49 |
vLLM 1P1D | 753 | 36 | 26 | 3.76 |
Pliops FusIOnX | 166 | 38 | 56 | 8.43 |
Ganho | 3.3–4.5x | - | 2.15x | 2.24–2.4x |
Desempenho do Dynamo de quatro trabalhadores
Configuração | TTFT (ms) | TPOT (ms) | #clientes | RPS |
---|---|---|---|---|
vLLM | 1192 | 41 | 60 | 7.32 |
vLLM 2P2D | 719 | 39 | 60 | 7.99 |
Pliops FusIOnX | 329 | 40 | 148 | 20.7 |
Ganho | 2.2–3.6x | - | 2.46x | 2.6–2.8x |
No SLO de TPOT típico de 40 ms (representando aproximadamente 25 TPS/usuário), o FusIOnX demonstra eficiência 2.8x maior que o Dynamo padrão e 2.24x melhor que a configuração desagregada de pré-preenchimento e decodificação do Dynamo em termos de RPS/GPU. E em um SLO de TPOT menos rigoroso, por exemplo, 60 ms (~17 TPS/usuário), a eficiência aumenta para mais de 3x.
Além disso, o gráfico a seguir visualiza o ganho médio de RPS alcançado pelo Pliops em comparação com o Dynamo padrão na configuração de quatro trabalhadores, medido ao longo da duração do experimento. Ao longo da janela de teste, o Pliops manteve uma melhoria de mais de 2x em relação ao Dynamo, demonstrando a capacidade da solução de sustentar alto desempenho sob condições de carga realistas, semelhantes às de produção. Esse ganho de throughput sustentado se traduz diretamente em maior simultaneidade do usuário e melhor capacidade de resposta do serviço, validando a eficácia do descarregamento do cache KV em escala.
Quantificando a vantagem: benefícios reais do descarregamento de cache KV
Então, o que isso significa para as empresas e para o ecossistema de IA em geral? A redução drástica do Tempo até o Primeiro Token (TTFT) se traduz diretamente em uma experiência do usuário significativamente aprimorada, com interações mais rápidas e responsivas. Isso é particularmente crítico para aplicativos interativos como chatbots, assistentes virtuais e copilotos de codificação em tempo real, onde a latência pode determinar o sucesso ou o fracasso da usabilidade.
Além da experiência individual do usuário, a capacidade de lidar com um número de usuários simultâneos de duas a três vezes maior, mantendo rigorosamente os Objetivos de Nível de Serviço (SLOs), permite que as organizações atendam a uma base de clientes substancialmente maior usando sua infraestrutura de hardware existente. Essa capacidade aprimorada é crucial para implantações de inferência baseadas em nuvem, onde o escalonamento para atender à demanda flutuante é fundamental.
Além disso, a capacidade de armazenamento praticamente ilimitada para caches KV, facilitada pelo Pliops XDP LightningAI, permite o suporte a janelas de contexto muito mais longas e uma densidade de usuários simultâneos maior do que as abordagens tradicionais baseadas apenas em HBM conseguem sustentar. Essa capacidade não se limita mais apenas aos maiores laboratórios de pesquisa em IA. Provedores de inferência de todos os portes agora podem aproveitar a solução da Pliops para implementar mecanismos sofisticados de cache KV, semelhantes aos empregados por grandes empresas de IA como OpenAI, Anthropic e Google.
Além disso, esses provedores podem reduzir o consumo geral de energia eliminando a computação redundante e otimizando o uso de memória, contribuindo para uma infraestrutura de IA mais sustentável. Em última análise, essas eficiências podem ser repassadas aos usuários finais por meio de serviços de IA com preços mais competitivos, permitindo que os provedores maximizem a utilização e o retorno sobre seus investimentos em hardware com o mínimo de investimento adicional de capital.
O que isso significa para a infraestrutura de IA
O Pliops XDP LightningAI, com sua arquitetura FusIOnX, representa um avanço significativo na otimização de inferências de LLM. Abordar o gargalo crítico do gerenciamento de cache KV por meio de transferência inteligente para armazenamento econômico proporciona melhorias substanciais de desempenho em todas as principais métricas.
A integração perfeita da solução com o NVIDIA Dynamo e o vLLM aplica-se imediatamente a diversos cenários de implantação. Seja com os sofisticados recursos de serviço distribuído do Dynamo ou diretamente com o vLLM, as organizações podem esperar ganhos significativos em taxa de transferência, latência e eficiência de custos.
À medida que os LLMs aumentam em tamanho e capacidade e suas aplicações se tornam cada vez mais críticas à missão, soluções como o Pliops XDP LightningAI serão uma ferramenta essencial para organizações que buscam construir uma infraestrutura de IA escalável, eficiente e econômica.
Conclusão
O Pliops XDP LightningAI, complementado pela arquitetura FusIOnX, proporciona um salto na eficiência da inferência de LLM ao solucionar o gargalo persistente do cache KV. Por meio do descarregamento inteligente de dados do cache KV para um armazenamento de alto desempenho e econômico, o Pliops permite que as organizações expandam drasticamente as janelas de contexto, ofereçam suporte a mais usuários simultâneos e mantenham SLOs de latência rigorosos sem investimento adicional em GPU. A integração perfeita com frameworks como NVIDIA Dynamo e vLLM garante ampla aplicabilidade em pilhas de servidores de IA modernas.
À medida que os LLMs se tornam mais complexos e a adoção corporativa acelera, desvincular o escalonamento de memória dos recursos caros de GPU será crucial. O Pliops XDP LightningAI é um facilitador para a infraestrutura de IA de próxima geração, capacitando provedores a fornecer serviços de IA mais rápidos, escaláveis e econômicos em grande escala. Para organizações que buscam preparar suas implantações de IA para o futuro e maximizar o ROI de hardware, o Pliops oferece uma solução atraente e pronta para produção para um dos desafios mais urgentes da inferência em larga escala atualmente.
Solicite uma demonstração do Pliops
Envolva-se com a StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed