Pliops XDP LightningAI は、KV キャッシュをオフロードすることで LLM 推論を強化し、NVIDIA Dynamo 統合により、より高速でスケーラブルな AI を実現します。
Pliopsはデータアクセラレーションの最前線に立ち、クラウドおよびエンタープライズデータセンターにおけるデータ集約型ワークロードを最適化・強化するために設計されたハードウェアおよびソフトウェアソリューションに特化しています。Pliops Extreme Data Processor(XDP)は、アプリケーションとストレージ間のデータフローを管理し、ボトルネックを解消し、レイテンシを削減することで、最新のデータインフラストラクチャのパフォーマンスと効率を向上させるように設計されています。XDPは、AI、複雑なデータベース、高度な分析、拡張可能な大規模ストレージシステムなど、高スループットと最小限のレイテンシが求められる厳しい環境に非常に適しています。
AIがビジネスオペレーションとイノベーションの基盤としてますます重要になるにつれ、データセンターインフラへの需要は飛躍的に高まっており、特にAI推論ワークロードにおいては顕著です。これらのワークロードは膨大な量のデータを迅速かつ効率的に処理する必要があり、既存のコンピューティングリソースとストレージリソースに多大な負担をかけています。組織は、厳格なパフォーマンスSLAを常に満たす、拡張性、費用対効果、電力効率に優れたインフラの導入という、山積する課題に取り組んでいます。
Pliops XDP LightningAIは、これらの差し迫った課題に正面から取り組みます。この革新的なソリューションは、シームレスに統合するように設計されたユニバーサルストレージアクセラレーションエンジンを導入しています。 主要なサーバープラットフォームDell PowerEdgeシステムなどの高度な推論ソリューションと連携して動作します。 NVIDIA ダイナモ効率的な AI 運用を実現します。
スケーラブルなLLM推論においてKVキャッシュが重要な理由
KVキャッシングの仕組みと重要性
トランスフォーマーベースの大規模言語モデルの最適化の中核を成すのは、KVキャッシングです。これは、自己回帰推論における計算の冗長性を軽減する基礎的な手法です。トランスフォーマーアーキテクチャでは、新しいトークンを生成する際には、現在のトークンのクエリと、それ以前のすべてのトークンのキーと値との間のアテンションを計算する必要があります。
効果的なキャッシュ機構がなければ、このプロセスは各生成ステップでシーケンス内の全てのトークンに対してこれらのキーと値を冗長的に再計算することになります。その結果、長さnのシーケンスに対してO(n²)、つまり2乗の計算複雑度が発生します。KVキャッシュは、以前のトークンの計算済みキーと値の行列をGPUメモリに直接保存することでこれを回避します。モデルはこれらの事前計算済みテンソルを後続のステップで再利用できます。この再利用により、最初のトークン処理後の計算複雑度はO(n)へと劇的に削減され、推論速度が大幅に向上します。
この効率性の向上は、インタラクティブ チャットボット、瞬時翻訳サービス、動的コード生成などのリアルタイム AI アプリケーションにとって極めて重要です。これらのアプリケーションでは、レイテンシがユーザー エクスペリエンスとアプリケーションの実行可能性に直接影響を与える重要な要素となります。
GPUメモリの制約:隠れたボトルネック
KVキャッシュは推論速度を大幅に向上させますが、GPUメモリリソースへの負荷を高めます。KVキャッシュのサイズは、シーケンス長(コンテキストウィンドウ)とバッチサイズ(同時リクエスト数)の両方に比例して増加します。
マルチテナントクラウド環境や、数百、場合によっては数千もの同時リクエストを処理するエンタープライズシステムでは、このメモリ消費により、最高級のGPUインフラストラクチャでさえも急速に枯渇する可能性があります。この枯渇により、バッチサイズを縮小する(スループットの低下)、コンテキスト長を短くする、あるいはGPUの追加投資を行う(設備投資の増加)といった難しいトレードオフを迫られることになります。
さらに、推論プロバイダの一般的な慣行として、ユーザーターンやメッセージ間でKVキャッシュを保持しないというものがあります。これは、以前に計算されたトークンの二次の計算複雑度が、その後のインタラクションごとに新たに発生することを意味し、潜在的な効率性の向上が一部損なわれます。
NVIDIA Dynamo: 大規模な LLM 推論を再考する
NVIDIA Dynamo とは何ですか?
最近リリースされた革新的なオープンソースフレームワーク、NVIDIA Dynamo は、分散型および分散型の LLM 推論サービスにおける複雑な課題に対処するために設計されています。PyTorch、SGLang、TensorRT-LLM、vLLM など、様々なバックエンドをサポートする Dynamo は、シングル GPU 環境から数千 GPU クラスターまで、推論処理をシームレスにスケーリングできるように特別に設計されています。KV キャッシュによるメモリ制約に対処しながら、スループットの最大化とレイテンシの最小化を最適化できる、重要なアーキテクチャイノベーションを導入しています。
分散型サービスアーキテクチャ
NVIDIA Dynamo の中核となるイノベーションは、分散型サービングアプローチです。このアーキテクチャは、計算負荷の高いプリフィルフェーズと、メモリバウンドのデコードフェーズ(後続のトークン生成)を戦略的に分離します。これらの異なるフェーズを専用のGPUプールにインテリジェントに割り当てることで、Dynamo は各フェーズを独立して最適化し、リソース利用効率の向上と全体的なパフォーマンス向上を実現します。
KVキャッシュの進歩
NVIDIA Dynamo には、高度な KV キャッシュ管理機能も組み込まれています。KV キャッシュ対応スマートルーターは、GPU フリート全体の KV キャッシュデータの状態と場所を追跡します。これにより、受信した推論リクエストを適切なキャッシュエントリを持つ GPU にインテリジェントにルーティングし、コストのかかる再計算とデータ転送のオーバーヘッドを最小限に抑えることができます。
さらに、Dynamo Distributed KV Cache Managerは、階層型オフロードを実装することで、メモリ容量の制限に直接対処します。この機能により、アクセス頻度の低い、または優先度の低いKVキャッシュブロックを、高価で高速なHBMから、共有CPUメモリ、ローカルSSD、ネットワークオブジェクトストレージなどのより費用対効果の高いストレージソリューションに移動できます。この階層型ストレージアプローチにより、組織は大幅に大容量のKVキャッシュデータをわずかなコストで管理・保存でき、推論パフォーマンスと経済効率を向上させることができます。
現時点では、上記のKVキャッシュオフロード機能はDynamoの一部であることを明確にしておくことが重要です。 将来のロードマップ これらはオープンソースリリースではまだ利用できません。そのため、現在のオープンソースDynamoデプロイメントでは、階層化ストレージへのKVキャッシュオフロードはサポートされていません。つまり、実際にはDynamoのパフォーマンスは利用可能なGPUメモリによって制限されることになります。
Pliops XDP LightningAI: 大規模なKVキャッシュの解決
そこでPliops XDP LightningAIは、GPUのHBM(ハードウェアベースメモリ)の直下に戦略的に配置された、超高速でスケーラブルなペタバイト級メモリ層を構築します。これにより、バッチサイズ、コンテキスト長、モデルの複雑さ、そして高騰するハードウェアコストといった、組織にとって重要なトレードオフを解決します。Pliopsのソリューションは、最先端のXDP-PRO ASICとKVIOストアを組み合わせます。これにより、GPUサーバーは膨大な量のKVキャッシュデータをコスト効率の高いNVMe SSDストレージに効率的にオフロードすることができ、同時に1ミリ秒未満のアクセスレイテンシを極めて低いレベルで維持できます。
実際の導入では、Pliops XDP LightningAIをKVキャッシュオフロードに活用することで、 事実上 識別可能な違いはありません 希少かつ高価なHBM内にKVキャッシュ全体を保持した場合と比較して、TTFT(Time-To-First-Token:最初のトークンまでの時間)が短縮されます。これにより、組織はリアルタイムAIアプリケーションに求められる重要な低レイテンシ性能を損なうことなく、KVキャッシュの有効メモリ容量を大幅に拡張できます。
標準ベースの設計によるシームレスな統合
Pliops XDP LightningAIのメリットは、オープンスタンダードを採用しているため、導入が容易なことです。このソリューションのNVMe-oFネイティブアーキテクチャは、既存のGPUサーバーエコシステムとの幅広い互換性を保証し、導入時にサーバーのハードウェアを変更する必要はありません。標準のNVMe-oF over RDMAを利用することで、GPUクラスター間で高速かつ低レイテンシのキャッシュ同期を実現します。これにより、既存のデータセンターネットワークインフラストラクチャを活用できるため、導入が簡素化され、統合の際の摩擦が軽減されます。
Pliopsは、XDP LightningAIとFusIOnXという2つの補完的なテクノロジーから構築された統合ソリューションによってこれを実現します。これらのコンポーネントは全体的なアーキテクチャの一部として連携しながらも、それぞれ異なる役割を果たします。 Pliops XDP LightningAI ソリューションは、カスタム XDP ASIC と一連の SSD を搭載した PCIe アドイン カードを備えた専用のハードウェア アプライアンスを中心に構築されています。
一方、FusIOnXは、XDP LightningAIハードウェアのインテリジェントな活用をオーケストレーションおよび管理する補完的なソフトウェアプラットフォームです。これは、分散型KVキャッシュオフロードシステムであり、以前に計算されたKVキャッシュを保存・再利用することで冗長な計算を排除します。FusIOnXは、再計算が必要となるコンテキストデータを識別、保存、効率的に取得するためのインテリジェンスを提供し、LLM推論を高速化します。このソフトウェアスタックは、複数のGPUノードにまたがるスマートルーティングや、DynamoやSGLangなどのフレームワークとの統合を備えたvLLMプロダクションスタックなど、さまざまな導入シナリオに合わせて複数の構成を提供します。
Pliops LightningAI FusIOnXアーキテクチャ
システムアーキテクチャは、GPUを収容するイニシエーターノードと、KVキャッシュを高性能ストレージにオフロードするLightningAIターゲットノードで構成されています。これらのノードは、DPUの標準NICを使用し、NVMe-oFプロトコルを利用した高速ネットワークを介して通信します。
データフローをさらに深く掘り下げると、Nvidia DynamoワーカーはGPUサーバー上のアプリケーションコンテナ内のFusIOnXクライアントSDKと連携します。このSDKは、DPUまたは標準NICを介してNVMe-oF経由で、FusIOnX KVストアとPliops XDP Pro1アクセラレーションカードをホストするXDP LightningAIストレージサーバーとの通信を促進します。
LightningAIとNVIDIA Dynamoの出会い:パフォーマンスベンチマーク
FusIOnX-Dynamo統合ベンチマークでは、複数の構成において目覚ましいパフォーマンス向上が見られました。テストは、テンソル並列度3.1(TP70)で実行されたMeta-Llama-8-2B-Instruct-FP2-dynamicモデルを使用して実施されました。
テスト構成
- イニシエーター(GPU サーバー): Dell PowerEdge XE9680 サーバー、構成:
- GPU: NVIDIA H8 SXM x 100、各80GBのHBM3搭載
- DRAM: 2TB
- CPU: デュアルソケット Intel Xeon Platinum 8568Y+ プロセッサー
- ネットワーキング: NVIDIA ConnectX-2 アダプタ (7Gbps) x 400
- ターゲット (Pliops ストレージ サーバー): 次の構成の Dell PowerEdge R860 ノード:
- DRAM: 512GB
- CPU: クアッドソケット Intel Xeon Gold 6418H プロセッサー
- Pliops アクセラレーション: Pliops XDP Pro1 カード x 1
- ストレージ: 24 基の Samsung PM1733a 3.84TB NVMe SSD を搭載し、KV キャッシュ オフロードに十分な生の容量を提供します。
- ネットワーキング: NVIDIA ConnectX-1 HHHL アダプタ カード (7GbE、シングル ポート OSFP、PCIe 400 x5.0) x 16
- ネットワーク相互接続: これら 5600 台のサーバーは、NVIDIA SN800 Spectrum-X XNUMXGbps イーサネット スイッチを介して接続されており、NVMe-oF トラフィックに対して高帯域幅と低遅延の通信を保証します。
測定された主な指標:
- 最初のトークン発行までの時間 (TTFT): ユーザーが生成されたコンテンツを見始めるまでの速さ
- 出力トークンあたりの時間 (TPOT): 生成されたトークン間の時間
- 1秒あたりのリクエスト数(RPS): システムスループット
- 1秒あたりのトークン数(TPS): 生成速度
ベンチマークでは、平均プロンプト長が 2,200 トークン、100 ターンあたり出力トークンが 230 ~ 2 個で、会話が 28 ~ XNUMX ターンにわたる、複数ターンの会話をシミュレートしました。
Dynamo シングルワーカーパフォーマンス
TTFT(ミリ秒) | TPOT(ミリ秒) | #クライアント | RPS | |
---|---|---|---|---|
vLLM | 310 | 33 | 8 | 1.35 |
プリオプスFusIOnX | 111 | 30 | 16 | 3.03 |
ゲイン | 2.79x | – | 2x | 2.24x |
ダイナモ2人作業のパフォーマンス
TTFT(ミリ秒) | TPOT(ミリ秒) | #クライアント | RPS | |
---|---|---|---|---|
vLLM | 557 | 40 | 26 | 3.49 |
vLLM 1P1D | 753 | 36 | 26 | 3.76 |
プリオプスFusIOnX | 166 | 38 | 56 | 8.43 |
ゲイン | 3.3〜4.5倍 | – | 2.15x | 2.24〜2.4倍 |
ダイナモ4人作業員のパフォーマンス
TTFT(ミリ秒) | TPOT(ミリ秒) | #クライアント | RPS | |
---|---|---|---|---|
vLLM | 1192 | 41 | 60 | 7.32 |
vLLM 2P2D | 719 | 39 | 60 | 7.99 |
プリオプスFusIOnX | 329 | 40 | 148 | 20.7 |
ゲイン | 2.2〜3.6倍 | – | 2.46x | 2.6〜2.8倍 |
典型的な40msのTPOT SLO(約25 TPS/ユーザー)では、FusIOnXはRPS/GPUの観点から、標準のDynamoと比較して2.8倍、Dynamoのプリフィル・デコード分離構成と比較して2.24倍の効率性を示します。また、TPOT SLOがそれほど厳しくない場合(例えば60ms(約17 TPS/ユーザー))は、効率は3倍以上に向上します。
さらに、以下のグラフは、実験期間中、2ワーカー構成においてPliopsと標準のDynamoを比較した平均RPSゲインを視覚化したものです。テスト期間全体を通して、PliopsはDynamoのXNUMX倍以上のパフォーマンス向上を維持し、現実的な本番環境に近い負荷条件下でも高いパフォーマンスを維持できるソリューションであることを示しています。この持続的なスループット向上は、ユーザー同時実行性の向上とサービス応答性の向上に直接つながり、KVキャッシュオフロードの大規模環境における有効性を実証しています。
メリットの定量化: KV キャッシュ オフロードの実際のメリット
では、これは企業やAIエコシステム全体にとって何を意味するのでしょうか?Time-To-First-Token(TTFT)の劇的な短縮は、ユーザーエクスペリエンスの大幅な向上に直接つながり、より高速で応答性の高いインタラクションを実現します。これは、チャットボット、バーチャルアシスタント、リアルタイムコーディングのコパイロットといったインタラクティブなアプリケーションにとって特に重要です。これらのアプリケーションでは、遅延がユーザビリティの成否を左右するからです。
個々のユーザーエクスペリエンスの向上に加え、サービスレベル目標(SLO)を厳密に維持しながら、2~3倍の同時ユーザー数を処理できる能力は、組織が既存のハードウェアインフラストラクチャを使用して、はるかに大規模な顧客ベースにサービスを提供できることを意味します。この強化されたキャパシティは、変動する需要に対応するためのスケーリングが極めて重要であるクラウドベースの推論展開にとって極めて重要です。
さらに、Pliops XDP LightningAIによって実現されるKVキャッシュのストレージ容量は事実上無制限であり、従来のHBMのみのアプローチでは対応できない、はるかに長いコンテキストウィンドウと高密度な同時ユーザー数をサポートします。この機能は、もはや大規模AI研究機関に限定されるものではありません。あらゆる規模の推論プロバイダーがPliopsのソリューションを活用して、OpenAI、Anthropic、Googleなどの大手AI企業が採用しているものと同様の高度なKVキャッシュメカニズムを実装できるようになります。
さらに、これらのプロバイダーは、冗長な計算を排除し、メモリ使用量を最適化することで全体的な電力消費を削減し、より持続可能なAIインフラストラクチャの構築に貢献します。最終的には、これらの効率化は、より競争力のある価格のAIサービスを通じてエンドユーザーに還元され、プロバイダーは最小限の追加資本支出でハードウェア投資の利用率と収益を最大化できるようになります。
AIインフラにとってこれが何を意味するのか
Pliops XDP LightningAIは、FusIOnXアーキテクチャを採用し、LLM推論最適化における大きな進歩を体現しています。コスト効率の高いストレージへのインテリジェントなオフロードを通じてKVキャッシュ管理の重大なボトルネックを解消することで、すべての主要指標において大幅なパフォーマンス向上を実現します。
このソリューションは、NVIDIA DynamoおよびvLLMとシームレスに統合されており、様々な導入シナリオにすぐに適用できます。Dynamoの高度な分散サービス機能と併用する場合でも、vLLMと直接併用する場合でも、組織はスループット、レイテンシ、そしてコスト効率の大幅な向上を期待できます。
LLM の規模と機能が拡大し、そのアプリケーションがますますミッションクリティカルになるにつれて、Pliops XDP LightningAI のようなソリューションは、スケーラブルで効率的、かつコスト効率に優れた AI インフラストラクチャの構築を目指す組織にとって不可欠なツールになります。
まとめ:
FusIOnXアーキテクチャによって強化されたPliops XDP LightningAIは、永続的なKVキャッシュのボトルネックを解消することで、LLM推論効率を飛躍的に向上させます。Pliopsは、KVキャッシュデータを高性能で費用対効果の高いストレージにインテリジェントにオフロードすることで、組織がGPUへの追加投資なしにコンテキストウィンドウを大幅に拡張し、より多くの同時ユーザーをサポートし、厳格なレイテンシSLOを維持することを可能にします。NVIDIA DynamoやvLLMなどのフレームワークとのシームレスな統合により、最新のAIサービングスタック全体にわたる幅広い適用性が保証されます。
LLMの複雑性が増し、企業での導入が加速するにつれ、メモリスケーリングと高価なGPUリソースの分離が重要になります。Pliops XDP LightningAIは次世代AIインフラストラクチャの実現を可能にするソリューションであり、プロバイダーがより高速でスケーラブルかつコスト効率の高いAIサービスを大規模に提供することを可能にします。AI導入の将来性を確保し、ハードウェアのROIを最大化したい組織にとって、Pliopsは、今日の大規模推論における最も差し迫った課題の一つに対する、魅力的で本番環境対応可能なソリューションを提供します。
StorageReview と連携する
ニュースレター | YouTube |ポッドキャスト iTunes/Spotifyは | Instagram | Twitter | TikTok | RSSフィード