홈페이지 EnterpriseAI Pliops XDP LightningAI, NVIDIA Dynamo를 통해 KV 캐시를 강화하여 LLM 추론 최적화

Pliops XDP LightningAI, NVIDIA Dynamo를 통해 KV 캐시를 강화하여 LLM 추론 최적화

by 디뱐시 자이나교

Pliops XDP LightningAI는 KV 캐시를 오프로드하여 LLM 추론을 강화하고 NVIDIA Dynamo 통합을 통해 더 빠르고 확장 가능한 AI를 구현합니다.

Pliops는 데이터 가속 분야의 선두 주자로, 클라우드 및 엔터프라이즈 데이터 센터 내 데이터 집약적인 워크로드를 최적화하고 가속화하도록 설계된 하드웨어 및 소프트웨어 솔루션을 전문으로 합니다. Pliops Extreme Data Processor(XDP)는 애플리케이션과 스토리지 간의 데이터 흐름을 관리하고, 병목 현상을 제거하고, 지연 시간을 줄임으로써 최신 데이터 인프라의 성능과 효율성을 향상시키도록 설계되었습니다. XDP는 AI, 복잡한 데이터베이스, 고급 분석, 대규모 스토리지 시스템 등 높은 처리량과 최소 지연 시간이 요구되는 까다로운 환경에 매우 적합합니다.

Pliops XDP LightningAI 아키텍처

AI가 비즈니스 운영과 혁신의 초석으로 자리 잡으면서 데이터 센터 인프라에 대한 요구, 특히 AI 추론 워크로드에 대한 요구가 기하급수적으로 증가했습니다. 이러한 워크로드는 방대한 양의 데이터를 빠르고 효율적으로 처리해야 하므로 기존 컴퓨팅 및 스토리지 리소스에 막대한 부담을 줍니다. 기업들은 엄격한 성능 SLA를 지속적으로 충족할 수 있는 확장 가능하고 비용 효율적이며 전력 효율적인 인프라를 구축하는 데 있어 점점 더 많은 어려움에 직면하고 있습니다.

Pliops XDP LightningAI는 이러한 시급한 과제를 정면으로 해결합니다. 이 혁신적인 솔루션은 다음과 완벽하게 통합되도록 설계된 범용 스토리지 가속 엔진을 도입합니다. 선도적인 서버 플랫폼Dell PowerEdge 시스템과 같은 고급 추론 솔루션과 함께 작동합니다. 엔비디아 다이나모효율적인 AI 운영을 약속합니다.

확장 가능한 LLM 추론에 KV 캐싱이 중요한 이유

KV 캐싱의 역학 및 중요성

트랜스포머 기반 대규모 언어 모델 최적화의 핵심에는 자기회귀 추론 중 계산 중복을 완화하는 기본 기술인 KV 캐싱이 있습니다. 트랜스포머 아키텍처에서 새로운 토큰을 생성하려면 현재 토큰의 쿼리와 이전 토큰의 키 및 값 간의 어텐션을 계산해야 합니다.

효과적인 캐싱 메커니즘이 없다면, 이 프로세스는 각 생성 단계에서 시퀀스의 모든 토큰에 대해 이러한 키와 값을 중복해서 재계산하게 됩니다. 이로 인해 길이가 n인 시퀀스에 대해 O(n²), 즉 이차 복잡도의 계산 복잡도가 발생합니다. KV 캐싱은 이전 토큰의 계산된 키와 값 행렬을 GPU 메모리에 직접 저장하여 이러한 문제를 해결합니다. 모델은 이러한 미리 계산된 텐서를 후속 단계에서 재사용할 수 있습니다. 이러한 재사용은 초기 토큰 처리 후 계산 복잡도를 O(n²)으로 획기적으로 줄여 추론 속도를 크게 향상시킵니다.

효율성 향상은 대화형 챗봇, 즉각적 번역 서비스, 동적 코드 생성과 같은 실시간 AI 애플리케이션에 매우 중요합니다. 이러한 애플리케이션에서 지연 시간은 사용자 경험과 애플리케이션 실행 가능성에 직접적인 영향을 미치는 중요한 요소이기 때문입니다.

GPU 메모리 제약: 숨겨진 병목 현상

KV 캐싱은 추론 속도를 크게 향상시키지만, GPU 메모리 리소스에 부담을 줍니다. KV 캐시 크기는 시퀀스 길이(컨텍스트 윈도우)와 배치 크기(동시 요청 수)에 따라 선형적으로 증가합니다.

수백, 아니 수천 개의 동시 요청을 처리하는 멀티 테넌트 클라우드 환경이나 엔터프라이즈 시스템에서 이러한 메모리 소비는 최고급 GPU 인프라조차도 빠르게 고갈시킬 수 있습니다. 이러한 고갈은 배치 크기를 줄이거나(처리량 감소), 컨텍스트 길이를 줄이거나, GPU에 더 많이 투자하는(CapEx 증가) 등 어려운 타협을 요구합니다.

더욱이, 추론 제공자들 사이에서는 사용자 차례나 메시지 사이에 KV 캐시를 유지하지 않는 것이 일반적인 관행입니다. 이는 이전에 계산된 토큰에 대한 이차 계산 복잡도가 이후의 모든 상호작용에 대해 새로 발생하여 잠재적인 효율성 향상 효과를 무효화한다는 것을 의미합니다. 

NVIDIA Dynamo: 대규모 LLM 추론 재고

NVIDIA Dynamo란 무엇인가요?

최근 출시된 혁신적인 오픈소스 프레임워크인 NVIDIA Dynamo는 분산 및 분산 LLM 추론 서비스의 복잡한 과제를 해결하도록 설계되었습니다. PyTorch, SGLang, TensorRT-LLM, vLLM 등 다양한 백엔드를 지원하는 Dynamo는 단일 GPU 배포에서 수천 개의 GPU 클러스터까지 추론 작업을 원활하게 확장할 수 있도록 설계되었습니다. 또한, KV 캐시로 인한 메모리 제약을 해결하는 동시에 최대 처리량과 최소 지연 시간을 최적화하기 위한 중요한 아키텍처 혁신을 도입했습니다.

분산형 서비스 아키텍처

NVIDIA Dynamo의 핵심 혁신은 분산된 서비스 제공 방식입니다. 이 아키텍처는 연산 집약적인 프리필 단계와 메모리 기반 디코딩 단계(후속 토큰 생성)를 전략적으로 분리합니다. Dynamo는 이러한 개별 단계를 별도의 특수 GPU 풀에 지능적으로 할당함으로써 각 단계를 독립적으로 최적화하여 리소스 활용 효율을 높이고 전반적인 성능을 향상시킵니다.

KV 캐시 발전

NVIDIA Dynamo는 정교한 KV 캐시 관리 기능도 통합합니다. KV 캐시 인식 스마트 라우터는 전체 GPU 플릿에서 KV 캐시 데이터의 상태와 위치를 추적합니다. 이를 통해 수신되는 추론 요청을 관련 캐시 항목이 있는 GPU로 지능적으로 라우팅하여 비용이 많이 드는 재계산 및 데이터 전송 오버헤드를 최소화합니다.

또한, Dynamo Distributed KV Cache Manager는 계층형 오프로드를 구현하여 메모리 용량 제한 문제를 직접 해결합니다. 이 기능을 통해 액세스 빈도가 낮거나 우선순위가 낮은 KV 캐시 블록을 값비싸고 빠른 HBM에서 공유 CPU 메모리, 로컬 SSD 또는 네트워크 객체 스토리지와 같은 더 비용 효율적인 스토리지 솔루션으로 이동할 수 있습니다. 이러한 계층적 스토리지 접근 방식을 통해 기업은 훨씬 더 많은 양의 KV 캐시 데이터를 훨씬 적은 비용으로 관리하고 저장할 수 있으며, 추론 성능과 경제적 효율성을 향상시킬 수 있습니다.

오늘 현재 위에 설명된 KV 캐시 오프로딩 기능은 Dynamo의 일부라는 점을 명확히 하는 것이 중요합니다. 미래 로드맵 아직 오픈 소스 릴리스에서 사용할 수 없습니다. 따라서 현재 오픈 소스 Dynamo 배포는 계층형 스토리지로의 KV 캐시 오프로드를 지원하지 않습니다. 즉, 실제로 Dynamo의 성능은 여전히 ​​사용 가능한 GPU 메모리의 제약을 받습니다.

Pliops XDP LightningAI: 대규모 KV 캐시 해결

Pliops XDP LightningAI는 GPU의 HBM 아래에 전략적으로 배치된 초고속, 확장 가능한 페타바이트급 메모리 계층을 구축합니다. 이를 통해 배치 크기, 컨텍스트 길이, 모델 복잡성, 그리고 증가하는 하드웨어 비용 간의 중요한 상충 관계를 해결할 수 있습니다. Pliops 솔루션은 최첨단 XDP-PRO ASIC과 KVIO Store를 결합합니다. GPU 서버가 방대한 양의 KV 캐시 데이터를 비용 효율적인 NVMe SSD 스토리지로 효율적으로 오프로드하는 동시에 밀리초 미만의 매우 낮은 액세스 지연 시간을 유지할 수 있도록 지원합니다.

실제 배포에서 KV 캐시 오프로딩을 위해 Pliops XDP LightningAI를 활용하면 다음과 같은 결과가 발생합니다. 사실상 눈에 띄는 차이가 없다 TTFT(Time-To-First-Token) 방식은 전체 KV 캐시가 희소하고 값비싼 HBM에 저장되는 시나리오와 비교했을 때 성능이 훨씬 뛰어납니다. 이를 통해 기업은 실시간 AI 애플리케이션에 필요한 저지연 성능의 저하 없이 KV 캐싱을 위한 유효 메모리 용량을 획기적으로 확장할 수 있습니다.

 

표준 기반 설계를 통한 원활한 통합

Pliops XDP LightningAI의 장점은 개방형 표준을 사용하여 손쉽게 도입할 수 있다는 것입니다. 이 솔루션의 NVMe-oF 네이티브 아키텍처는 기존 GPU 서버 생태계와의 광범위한 호환성을 보장하며, 배포를 위해 서버 하드웨어를 수정할 필요가 없습니다. GPU 클러스터 간 고속, 저지연 캐시 동기화를 위해 표준 NVMe-oF over RDMA를 사용합니다. 이를 통해 기존 데이터 센터 네트워킹 인프라를 활용하여 배포를 간소화하고 통합 문제를 줄일 수 있습니다. 

Pliops는 XDP LightningAI와 FusIOnX라는 두 가지 상호 보완적인 기술을 기반으로 구축된 통합 솔루션을 통해 이를 실현합니다. 이러한 구성 요소는 전체 아키텍처의 일부로서 함께 작동하지만, 각기 다른 역할을 수행합니다. Pliops XDP LightningAI 솔루션은 맞춤형 XDP ASIC과 다양한 SSD로 구동되는 PCIe 추가 카드를 탑재한 전용 하드웨어 어플라이언스를 중심으로 설계되었습니다. 

반면 FusIOnX는 XDP LightningAI 하드웨어의 지능적인 사용을 조율하고 관리하는 보완적인 소프트웨어 플랫폼입니다. 이는 이전에 계산된 KV 캐시를 저장하고 재사용하여 중복 계산을 제거하는 분산형 KV 캐시 오프로딩 시스템입니다. FusIOnX는 재계산이 필요한 컨텍스트 데이터를 식별, 저장 및 효율적으로 검색하는 인텔리전스를 제공하여 LLM 추론을 가속화합니다. 이 소프트웨어 스택은 여러 GPU 노드에 걸친 스마트 라우팅과 Dynamo 및 SGLang과 같은 프레임워크와의 통합을 지원하는 vLLM 프로덕션 스택을 포함하여 다양한 배포 시나리오에 맞춰 다양한 구성을 제공합니다.

Pliops LightningAI FusIOnX 아키텍처

시스템 아키텍처는 GPU를 내장하는 이니시에이터 노드와 KV 캐시를 고성능 스토리지로 오프로드하는 LightningAI 타겟 노드로 구성됩니다. 이 노드들은 DPU의 표준 NIC를 사용하여 NVMe-oF 프로토콜을 사용하는 고속 네트워크를 통해 통신합니다.

데이터 흐름을 더 자세히 살펴보면, Nvidia Dynamo 워커는 GPU 서버의 애플리케이션 컨테이너 내에서 FusIOnX 클라이언트 SDK와 상호 작용합니다. 이 SDK는 DPU 또는 표준 NIC를 통해 NVMe-oF를 통해 FusIOnX KV Store와 Pliops XDP Pro1 가속 카드를 호스팅하는 XDP LightningAI 스토리지 서버와 통신합니다.

LightningAI와 NVIDIA Dynamo의 만남: 성능 벤치마크

FusIOnX-Dynamo 통합 벤치마크는 여러 구성에서 놀라운 성능 향상을 보여줍니다. 테스트는 텐서 병렬 처리 3.1(TP70)로 실행되는 Meta-Llama-8-2B-Instruct-FP2-dynamic 모델을 사용하여 수행되었습니다.

테스트 구성

  • 개시자(GPU 서버): Dell PowerEdge XE9680 서버는 다음으로 구성됨:
    • GPU: 각각 8GB HBM100를 탑재한 80 x NVIDIA H3 SXM
    • 적은 양: 2TB
    • CPU: 듀얼 소켓 Intel Xeon Platinum 8568Y+ 프로세서
    • 네트워킹 : 2 x NVIDIA ConnectX-7 어댑터(400Gbps)

  • 대상(Pliops 스토리지 서버): 다음으로 구성된 Dell PowerEdge R860 노드:
    • 적은 양: 512GB
    • CPU: 쿼드 소켓 Intel Xeon Gold 6418H 프로세서
    • 플리오프 가속도: 1 x Pliops XDP Pro1 카드
    • 스토리지 : 24개의 Samsung PM1733a 3.84TB NVMe SSD는 KV 캐시 오프로드를 위한 상당한 원시 용량을 제공합니다.
    • 네트워킹 : 1 x NVIDIA ConnectX-7 HHHL 어댑터 카드(400GbE, 단일 포트 OSFP, PCIe 5.0 x16)
  • 네트워크 상호 연결: 이 두 서버는 NVIDIA SN5600 Spectrum-X 800Gbps 이더넷 스위치를 통해 연결되어 NVMe-oF 트래픽에 대해 높은 대역폭과 낮은 지연 시간의 통신을 보장합니다.

측정된 주요 지표:

  • 첫 번째 토큰까지의 시간(TTFT): 사용자가 생성된 콘텐츠를 보는 속도
  • 출력 토큰당 시간(TPOT): 생성된 토큰 사이의 시간
  • 초당 요청 수(RPS): 시스템 처리량
  • 초당 토큰(TPS): 생성 속도

벤치마크는 평균 프롬프트 길이가 2,200 토큰이고 턴당 출력 토큰이 100~230개인 멀티턴 대화를 시뮬레이션했으며, 대화는 2~28턴에 걸쳐 진행되었습니다.

Dynamo 단일 작업자 성능

구성 TTFT(밀리초) TPOT(밀리초) #클라이언트 RPS
vLLM 310 33 8 1.35
플리오프 퓨전엑스 111 30 16 3.03
이득 SR 2.79x - 2x SR 2.24x

다이나모 투워커 퍼포먼스

구성 TTFT(밀리초) TPOT(밀리초) #클라이언트 RPS
vLLM 557 40 26 3.49
vLLM 1P1D 753 36 26 3.76
플리오프 퓨전엑스 166 38 56 8.43
이득 3.3~4.5배 - SR 2.15x 2.24~2.4배

다이나모 포워더 퍼포먼스

구성 TTFT(밀리초) TPOT(밀리초) #클라이언트 RPS
vLLM 1192 41 60 7.32
vLLM 2P2D 719 39 60 7.99
플리오프 퓨전엑스 329 40 148 20.7
이득 2.2~3.6배 - SR 2.46x 2.6~2.8배

일반적인 40ms TPOT SLO(사용자당 약 25 TPS)에서 FusIOnX는 기본 Dynamo보다 2.8배, RPS/GPU 측면에서 Dynamo의 프리필-디코딩 분산 설정보다 2.24배 높은 효율성을 보여줍니다. TPOT SLO가 덜 엄격한 60ms(사용자당 약 17 TPS)에서는 효율성이 3배 이상으로 증가합니다.

또한, 다음 그래프는 실험 기간 동안 2대 구성에서 Pliops가 바닐라 Dynamo 대비 달성한 평균 RPS 향상을 시각화합니다. 테스트 기간 내내 Pliops는 Dynamo 대비 XNUMX배 이상의 성능 향상을 유지하여 실제 운영 환경과 유사한 부하 조건에서도 높은 성능을 유지할 수 있음을 보여줍니다. 이러한 지속적인 처리량 향상은 사용자 동시성 향상 및 서비스 응답성 향상으로 이어지며, KV 캐시 오프로드의 효과를 대규모로 검증합니다.

이점 정량화: KV 캐시 오프로드의 실제 이점

그렇다면 이는 기업과 더 넓은 AI 생태계에 어떤 의미를 가질까요? 획기적으로 단축된 최초 토큰 생성 시간(TTFT)은 사용자 경험을 크게 향상시켜 더 빠르고 반응성이 뛰어난 상호작용을 가능하게 합니다. 특히 챗봇, 가상 비서, 실시간 코딩 보조 조종사와 같이 지연 시간이 사용성의 성패를 좌우하는 대화형 애플리케이션에 매우 중요합니다.

개별 사용자 경험 외에도, 서비스 수준 목표(SLO)를 엄격하게 유지하면서 2~3배 더 많은 동시 사용자를 처리할 수 있는 능력은 기업이 기존 하드웨어 인프라를 사용하여 훨씬 더 많은 고객 기반을 지원할 수 있음을 의미합니다. 이처럼 향상된 용량은 변동하는 수요에 맞춰 확장하는 것이 매우 중요한 클라우드 기반 추론 구축에 필수적입니다.

또한, Pliops XDP LightningAI가 제공하는 사실상 무제한의 KV 캐시 저장 용량은 기존 HBM 전용 방식보다 훨씬 긴 컨텍스트 윈도우와 더 높은 동시 사용자 밀도를 지원합니다. 이러한 기능은 더 이상 대규모 AI 연구실에만 국한되지 않습니다. 모든 규모의 추론 제공업체는 이제 Pliops 솔루션을 활용하여 OpenAI, Anthropic, Google과 같은 주요 AI 기업에서 사용하는 것과 유사한 정교한 KV 캐싱 메커니즘을 구현할 수 있습니다.

또한, 이러한 공급업체는 중복 계산을 제거하고 메모리 사용을 최적화하여 전체 전력 소비를 줄이고, 더욱 지속 가능한 AI 인프라 구축에 기여할 수 있습니다. 궁극적으로 이러한 효율성은 더욱 경쟁력 있는 가격의 AI 서비스를 통해 최종 사용자에게 전달될 수 있으며, 동시에 공급업체는 최소한의 추가 자본 지출로 하드웨어 투자 활용도와 수익을 극대화할 수 있습니다. 

이것이 AI 인프라에 의미하는 바

FusIOnX 아키텍처를 기반으로 하는 Pliops XDP LightningAI는 LLM 추론 최적화에 있어 획기적인 발전을 이루었습니다. 비용 효율적인 스토리지로의 지능적인 오프로드를 통해 KV 캐시 관리의 심각한 병목 현상을 해결함으로써 모든 주요 지표에서 상당한 성능 향상을 제공합니다.

이 솔루션은 NVIDIA Dynamo 및 vLLM과 완벽하게 통합되어 다양한 배포 시나리오에 즉시 적용됩니다. Dynamo의 정교한 분산 서비스 기능과 함께 사용하거나 vLLM과 직접 연결하여 사용하더라도 처리량, 지연 시간 및 비용 효율성 측면에서 상당한 이점을 얻을 수 있습니다.

LLM의 규모와 기능이 커지고 LLM의 적용이 점점 더 임무 수행에 중요해짐에 따라 Pliops XDP LightningAI와 같은 솔루션은 확장 가능하고 효율적이며 비용 효과적인 AI 인프라를 구축하려는 조직에 필수적인 도구가 될 것입니다.

결론

FusIOnX 아키텍처로 강화된 Pliops XDP LightningAI는 지속적인 KV 캐시 병목 현상을 해결하여 LLM 추론 효율성을 획기적으로 향상시킵니다. Pliops는 KV 캐시 데이터를 고성능의 비용 효율적인 스토리지로 지능적으로 오프로드하여 기업이 추가적인 GPU 투자 없이 컨텍스트 윈도우를 획기적으로 확장하고, 더 많은 동시 사용자를 지원하며, 엄격한 지연 시간 SLO를 유지할 수 있도록 지원합니다. NVIDIA Dynamo 및 vLLM과 같은 프레임워크와의 완벽한 통합을 통해 최신 AI 서비스 스택 전반에 걸쳐 광범위한 적용 가능성을 보장합니다.

LLM의 복잡성이 증가하고 기업의 도입이 가속화됨에 따라, 메모리 확장과 고가의 GPU 리소스를 분리하는 것이 중요해질 것입니다. Pliops XDP LightningAI는 차세대 AI 인프라를 위한 지원 도구로, 공급업체가 더 빠르고 확장 가능하며 비용 효율적인 AI 서비스를 대규모로 제공할 수 있도록 지원합니다. AI 구축의 미래를 보장하고 하드웨어 ROI를 극대화하려는 기업을 위해 Pliops는 오늘날 대규모 추론 분야에서 가장 시급한 과제 중 하나를 해결하는 강력하고 프로덕션에 즉시 사용 가능한 솔루션을 제공합니다.

Pliops 데모 요청

StorageReview에 참여

뉴스레터 | 유튜브 | 팟캐스트 iTunes/스포티 파이 | 인스타그램 | 트위터 | 틱톡 서비스 | RSS 피드