StorageReview.com

NVIDIA、CES 2026でVera Rubinアーキテクチャを発表:VR NVL72ラック

AI  ◇  DPU  ◇  Enterprise  ◇  Networking  ◇  サーバー  ◇  サーバーラック

CES 2026において、NVIDIAはVera Rubin NVL72ラックスケールシステムを中核とするRubinプラットフォームを発表しました。これはNVIDIAの第3世代ラックスケールアーキテクチャであり、共同設計された6つのチップを単一の統合システムに統合しています。このプラットフォームは2026年後半にパートナー各社から提供開始される予定で、6つのチップはすべて既に製造から戻り、現在、実ワークロードによる検証が行われています。

Vera Rubin NVL72: 6つのチップ、1つの統合システム

Vera Rubin NVL72 は、NVIDIA が「エクストリーム コデザイン」と呼ぶものを使用しており、6 つの異なるチップが統合システムとして機能するように一緒に開発されます。

Vera CPU: AI工場向けに設計されたARMシリコン

最初に展示されたチップはNVIDIA Vera CPUです。NVIDIAはAIワークロード向けカスタムARMシリコンへの投資を継続しています。Armv9.2との完全な互換性を備えた88個のカスタムOlympus ARMコアを搭載したVeraは、現代のAIファクトリーにおけるデータ移動とエージェント処理の要求に特化して設計されています。NVLink-C2C接続を備え、Rubin GPUに1.8TB/秒の帯域幅を提供します。これは、前世代のC2C帯域幅の2倍であり、PCIe Gen 6の7倍の速度で動作します。Vera CPUは、前世代のGrace CPUと比較して、データ処理、圧縮、コードコンパイルの性能を2倍に向上させます。

世代比較:ブラックウェル ウルトラ vs. ヴェラ ルビン NVL72

製品仕様 GB300 NVL72(ブラックウェル ウルトラ) VR NVL72(ヴェラ・ルービン)
GPU 数 72 個の Blackwell Ultra GPU 72 個の Rubin GPU
CPU数 36 個の Grace CPU 36個のVera CPU
CPUコア CPUあたり72個のARMコア CPUあたり88個のOlympus ARMコア
FP4推論パフォーマンス 1.44エクサフロップス 3.6エクサフロップス
GPU あたりの NVFP4 (推論) 20PFLOPS 50PFLOPS
GPU あたりの NVFP4 (トレーニング) 10PFLOPS 35PFLOPS
GPUメモリタイプ HBM3e HBM4
GPU メモリ帯域幅 約8 TB/秒 約22 TB/秒
NVLink生成 NVLink5 NVLink6
NVLink帯域幅(GPUあたり) 1.8 TB /秒 3.6 TB /秒
ラックスケールNVLink帯域幅 130 TB /秒 260 TB /秒
スケールアウト NIC ConnectX-8(800 Gb/s) ConnectX-9(1.6 TB/秒)
CPU-GPU インターコネクト NVLink-C2C(900 GB/秒) NVLink-C2C(1.8 TB/秒)

Rubin GPU: Transformer エンジン、NVFP4、HBM4

次に登場したのは、ショーの主役であるNVIDIA Rubin GPUです。これは、ハードウェアアクセラレーションによるアダプティブ圧縮機能を備えた第3世代Transformerエンジンを搭載しています。このエンジンは、Transformerレイヤー全体で精度を動的に調整し、精度を下げられる部分では高いスループットを実現しながら、重要な部分では精度を維持します。このNVFP4実装は、推論で50ペタフロップス(Blackwellの5倍)、トレーニングで35ペタフロップス(Blackwellの3.5倍)の演算性能を発揮します。Rubin GPUは、最大22TB/秒の帯域幅を持つHBM4メモリを初めて統合したGPUであり、大規模なMoEモデルが直面するメモリ帯域幅の課題を解決する大きな飛躍的進歩です。

NVLink 6: ラックスケールのオールツーオール通信

NVIDIA NVLink 6 スイッチは、GPU あたりの帯域幅を 3.6 TB/秒に倍増させ、ラック全体では 260 TB/秒のスケールアップ ネットワークを提供します。これは、世界のインターネットの横断帯域幅の 2 倍以上です。このスケールアップ ファブリックにより、すべての GPU が他のすべての GPU と同時に通信できるようになります(MoE エキスパート並列処理の要件)。MoE エキスパート並列処理では、すべてのエキスパートがクラスター全体で結果を共有する必要があります。内蔵のネットワーク内コンピューティングにより、集合的な操作が高速化され、輻輳が軽減され、GPU サイクルを消費する作業がオフロードされます。

ConnectX-9 SuperNIC: スケールアウトネットワークの再定義

NVIDIA ConnectX-9 SuperNICはスケールアウト型ネットワークに対応し、ラック外との通信においてGPUあたり1.6TB/秒のRDMA帯域幅を提供します。ConnectX-9は、データパス効率を最大化するためにVera CPUと共同設計されており、完全にソフトウェア定義でプログラム可能な高速データパスを実現します。これにより、AIラボは独自のモデルアーキテクチャに最適化されたカスタムデータ移動アルゴリズムを実装できます。

BlueField-4 DPUとASTRAセキュアアーキテクチャ

BlueField-4はNVIDIAの第4世代データ処理ユニットであり、AIワークロード向けのストレージとネットワークを根本的に再考するものです。この新しいDPUは、BlueField-3の16コアARM Cortex-A78に対して64コアのNVIDIAグレードCPUを搭載し、6倍の演算性能を実現します。BlueField-3のConnectX-7に対して、BlueField-4にはConnectX-9 SuperNICが同梱されており、ネットワーク帯域幅は800Gb/sに倍増します。GPUによるデータストレージへのアクセスは、前世代の2倍の速度です。スペックの向上だけでなく、BlueField-4の意義は、NVIDIAが大規模なエージェントAIに不可欠と位置付ける、AIネイティブなストレージインフラストラクチャの新たな層を実現することにあります。

BlueField-4は、ネットワーク、ストレージ、セキュリティ処理をオフロードすることで、Rubin GPUとVera CPUがモデル実行に集中できるようにします。NVIDIA Enterprise AI Factoryの検証済み設計に完全に統合されており、Red Hat、Palo Alto Networks、Fortinetなどのエコシステムサポートも受けています。

BlueField-4は、ASTRA(Advanced Secure Trusted Resource Architecture)も導入しています。このシステムレベルの信頼アーキテクチャは、パフォーマンスを損なうことなく、大規模なAI環境を安全にプロビジョニング、分離、運用するための単一の制御ポイントを提供します。

ラック全体にわたる機密コンピューティング

Vera Rubin NVL72は、システム全体にNVIDIA Confidential Computingを提供する初のラックスケールプラットフォームです。第3世代のConfidential Computingは、CPU、GPU、そしてNVLinkドメイン全体にわたってデータセキュリティを維持し、転送中のすべてのバスを暗号化します。これは、共有インフラストラクチャ上で独自モデルを実行している企業やAIラボの間で高まっている懸念、すなわち、サードパーティ製システムにデプロイされた場合でも、モデル、トレーニングデータ、推論ワークロードが保護された状態を維持できることへの対応です。

NVIDIA Spectrum-6 イーサネットスイッチは、NVIDIAのスケールアウトネットワークを支えています。200G SerDesテクノロジーとCo-Packaged Optics (CPO)を基盤とし、102TB/sのスイッチング容量を実現し、VR NVL72ラック間のEast-Westトラフィックを駆動します。CPOへの移行は大きな意義を持ちます。スイッチシリコンに光モジュールを直接統合することで、NVIDIAは従来のプラガブル光モジュールと比較して、信頼性が10倍、稼働時間が5倍、電力効率が5倍向上すると主張しています。

MoEモデルのコストと効率の改善

NVIDIAによると、VR NVL72は、Blackwellと同等のレイテンシで、大規模なMixture-of-Expertsモデルの推論において、トークンコストを7分の1に削減します。同じ時間で同じ大規模MoEモデルを学習するために必要なGPU数は、わずか4分の1です。このプラットフォームは、ワットあたりの推論演算能力が8倍向上しています。

これらの改良は、特定のトークンに対して一部のエキスパートのみをアクティブ化するMoEモデルの要件に対応しています。Kimi K2 Thinkingのようなモデルは384人のエキスパートを擁していますが、一度に8人しかアクティブ化しないため、大規模な全GPU通信が必要となります。VR NVL72の260TB/秒のスケールアップネットワークは、この通信パターンに対応します。

大規模向けに設計されたケーブルフリーラック

VR NVL72は、ケーブル、ファン、ホースを一切使用しないモジュラー式のトレイ設計を採用しています。内部配線は不要で、PCBとコネクタのみを使用しています。コンピュートトレイはラックに挿入するとブラインドメイトコネクタで接続されるため、手動でのケーブル配線は不要です。外部接続は、液冷ブロックに接続する2本の液体入口ホースと出口ホースのみです。

GB300 NVL72などの従来のシステムでは、1つのコンピュートトレイを組み立てるのに約100分を要していました。ケーブル接続はそれぞれ故障の原因となる可能性があり、数十万台のGPUを搭載したシステムでは特に大きな問題となります。ケーブル配線は冷却経路を制約し、スペースを消費するだけでなく、ファンは機械的な複雑さと騒音を増加させていました。

新設計により、組み立てと保守にかかる時間が18分の1に短縮されます。このプラットフォームは、GPU、CPU、NVLinkを網羅する第2世代RAS(信頼性、可用性、保守性)エンジンを搭載し、リアルタイムのヘルスチェック、フォールトトレランス、プロアクティブなメンテナンスを実現します。NVLinkスイッチトレイはゼロダウンタイムメンテナンスをサポートし、スイッチトレイを取り外したり、一部搭載したりしている間もラックの稼働を継続できます。数十万台のGPUを搭載したシステムでは、これらの保守性の向上はクラスタの稼働時間とグッドプットに直接反映されます。

このアーキテクチャは、将来の高密度構成を可能にします。これはまた、 以前にからかった AIインフラサミットで紹介したVera RubinのCPXラックデザインコンテキスト処理GPUをさらに追加し、 すでに高密度な設計で同じコンピューティング スレッドを実現します。

推論コンテキストメモリストレージプラットフォーム

NVIDIAはCES 2026において、KVキャッシュ専用に構築されたAIネイティブストレージインフラストラクチャの新たなクラスとなる「推論コンテキストメモリストレージプラットフォーム」を発表しました。このプラットフォームは、BlueField-4とSpectrum-X Ethernetネットワークを搭載しています。推論コンテキストに使用される従来のネットワークストレージと比較して、1秒あたりのトークン処理能力は最大5倍、TCOドルあたりのパフォーマンスは最大5倍、電力効率は最大5倍、最初のトークン生成時間は20倍向上します。BlueField-4のハードウェアアクセラレーションによるKVキャッシュ配置は、メタデータのオーバーヘッドを排除し、データ移動を削減します。一方、Spectrum-X Ethernetは、RDMAベースのアクセス向けに高帯域幅・低レイテンシのファブリックを提供します。

このプラットフォームは、LLM推論における増大するボトルネックであるKVキャッシュ管理に対処します。Transformerモデルは、生成された各トークンが以前のすべてのトークンに注意を払う必要があるアテンションメカニズムを使用します。キャッシュがない場合、すべてのトークンのキーと値のベクトルを再計算する必要があり、結果としてO(n²)の計算量になります。KVキャッシュは、これらの事前計算済み行列を再利用のためにメモリに保存し、計算量をO(n)に削減します。問題は、KVキャッシュサイズがシーケンスの長さとバッチサイズに比例して増加することです。単一のロングコンテキストの会話は、ギガバイト単位のメモリを消費する可能性があります。マルチテナント環境では、数百万トークンに及ぶコンテキストウィンドウ全体で数千の同時リクエストを処理するため、GPU HBMが枯渇します。オペレーターは、バッチサイズを縮小するか、コンテキストウィンドウを短縮するか、GPUを追加購入する必要があります。

従来のネットワークストレージは、多数の同時セッションにまたがるテラバイト単位の一時データへの低レイテンシのランダムアクセスを必要とする KV キャッシュアクセスパターン向けに設計されていませんでした。推論コンテキストメモリストレージプラットフォームは、GPU HBM と従来のストレージの間に位置し、このワークロード向けに最適化された専用のストレージ層を提供します。これにより、AI ファクトリーは GPU コンピューティングとは独立してコンテキスト容量を拡張できます。以前、Pliops の KV キャッシュアクセラレータを使用して NVIDIA Dynamo で KV キャッシュオフロードがどのように機能するかについて説明しました。NVIDIA は、NVIDIA 推論コンテキストメモリストレージプラットフォームでこれを拡張し、オープンソースの Dynamo プロジェクトに結び付けています。これにより、この新しいプラットフォームの分散型プレフィル/デコードフェーズ、スマートルーティング、および階層型ストレージオフロードを結び付けるソフトウェアフレームワークが提供されます。

VAST Data、NetApp、DDN、Dell Technologies、HPE、Hitachi Vantara、IBM、Nutanix、Pure Storage、WEKAなどのストレージパートナーが、BlueField-4を搭載したプラットフォームを構築しています。これらのプラットフォームは2026年後半に提供開始予定です。

Alpamayo: 自動運転車向け推論ベースの物理AI

NVIDIAは、安全な推論ベースの自動運転車(AV)開発を加速するために設計された、オープンAIモデル、シミュレーションツール、データセットからなるAlpamayoファミリーを発表しました。Alpamayoファミリーは、思考の連鎖と推論に基づく視覚・言語・行動モデルを導入し、AVの意思決定に人間のような思考をもたらします。これらのシステムは、NVIDIA Halo Safety Systemによって支えられています。

従来の自動運転アーキテクチャは、認識と計画を分離しているため、新しい状況や異常な状況が発生した場合の拡張性が制限される可能性があります。稀で複雑なシナリオの「ロングテール」は、自動運転システムが安全に制御する上で依然として最も困難な課題の一つです。Alpamayoは、モデルが因果関係を推論できるようにすることでこの問題に対処し、新しいシナリオを段階的に検討することで、運転能力と説明可能性を向上させます。

Alpamayoモデルは、車両内で直接実行されるのではなく、開発者が微調整を行い、完全なAVスタックのバックボーンに組み込むための大規模な教師モデルとして機能します。開発者は、Alpamayoを車両開発用の小規模なランタイムモデルに適応させたり、推論ベースの評価システムや自動ラベリングシステムなどのAV開発ツールの基盤として使用したりできます。

アルパマヨモデル、シミュレーション、オープンデータセット

Alpamayo 1は、AV研究コミュニティ向けに設計された業界初の思考連鎖推論VLAモデルであり、Hugging Faceで公開されています。10億パラメータのアーキテクチャを備えたAlpamayo 1は、ビデオ入力を用いて軌跡と推論の軌跡を生成し、各決定の背後にあるロジックを示します。Alpamayo 1は、オープンソースのモデル重みと推論スクリプトを提供しています。このファミリーの将来モデルは、より多くのパラメータ数、より詳細な推論機能、より柔軟な入出力、そして商用利用のためのオプションを備えていく予定です。

AlpaSimは、GitHubで公開されている、高忠実度AV開発のための完全オープンソースのエンドツーエンドシミュレーションフレームワークです。リアルなセンサーモデリング、設定可能な交通流、スケーラブルなクローズドループテスト環境を提供し、迅速な検証とポリシーの改良を可能にします。

Physical AI Open Datasetsには、幅広い地域と条件で収集された1,700時間以上の運転データが含まれており、推論アーキテクチャの進化に不可欠な、稀で複雑な現実世界のエッジケースを網羅しています。これらのデータセットはHugging Faceで入手できます。

開発者は、独自の車両データに基づいて Alpamayo モデル リリースを微調整し、NVIDIA DRIVE AGX Thor アクセラレーテッド コンピューティングで構築された NVIDIA DRIVE Hyperion アーキテクチャに統合し、商用展開前にシミュレーションでパフォーマンスを検証できます。

NVIDIA DRIVE、冗長AVスタック、メルセデス・ベンツCLA

NVIDIAは数千人規模のチームを率いて、8年間にわたり自動運転車の開発に取り組んできました。同社は、チップ(デュアルOrin、次世代デュアルThor)、インフラストラクチャ(OmniverseとCosmos)、モデル(Alpamayo)、そしてアプリケーション層というフルスタックを構築しました。メルセデス・ベンツは5年前にNVIDIAと提携し、このスタックを展開しました。

NVIDIA 初のフルスタック自動運転車である Mercedes-Benz CLA は、2026 年第 1 四半期に米国、第 2 四半期に欧州、第 3 四半期と第 4 四半期に発売予定です。Euro NCAP は、CLA を 2025 年に提出された自動車の中で最高のアクティブセーフティスコアに評価しました。システム内のすべてのコードとチップは、安全性の認証を受けています。

このシステムは、2つの完全なAVスタックを並列に実行します。Alpamayoスタックは思考連鎖推論を用いて複雑な運転シナリオを処理します。その下に位置する2つ目の従来型AVスタックは完全に追跡可能であり、構築には6~7年かかりました。ポリシーおよび安全性評価ツールが、信頼度に基づいてどちらのスタックを使用するかを決定します。Alpamayoが信頼できないシナリオに遭遇した場合、システムは従来型スタックにフォールバックします。このソフトウェアの多様性と冗長性は、セーフティクリティカルなシステムがハードウェアの冗長性を処理する方法を反映しています。

NVIDIAは、Alpamayoの新バージョンでシステムのアップデートを継続します。JLR、Lucid、Uber、Berkeley DeepDriveなどのモビリティパートナーは、推論ベースのレベル4自動運転の開発にAlpamayoを使用しています。

新しい物理AIモデルとロボティクスの発表

NVIDIAは、インフラストラクチャとシステムの発表に加え、CES 2026において、ロボティクス開発を加速させる新たなオープンモデル、フレームワーク、エッジプラットフォームをリリースすることで、フィジカルAI戦略を推進しました。同社は、ロボット学習のためのCosmosワールドモデルとGR00T推論モデルのアップデートに加え、大規模ロボット評価のための新たなオープンソースツール(Isaac Lab-Arenaを含む)も発表しました。OSMOは、異機種混在コンピューティング環境におけるトレーニングワークフローを簡素化するために設計された、エッジからクラウドまでのオーケストレーションフレームワークです。

NVIDIAは、Boston Dynamics、Caterpillar、LG Electronics、NEURA Roboticsなどのパートナー企業と共に、自社のロボティクススタックが業界で幅広く採用されていることを強調し、NVIDIAテクノロジーを基盤とした次世代自律型マシンを展示しました。また、Hugging Faceとの緊密な連携により、NVIDIA IsaacおよびGR00TモデルをオープンソースのLeRobotフレームワークに統合し、世界中のロボティクス開発者コミュニティへのアクセスをさらに拡大することも発表しました。

エッジコンピューティングにおいては、NVIDIAはBlackwellを搭載したJetson T4000モジュールの提供開始を発表しました。これにより、自律マシンや産業用ロボットのAIコンピューティングとエネルギー効率が大幅に向上します。これらの発表は、NVIDIAがフルスタックAIプラットフォームをデータセンターの枠を超え、シミュレーション、モデル、エッジコンピューティング、そしてロボットや自律システム全体にわたる実世界への展開まで拡張するという取り組みをさらに強化するものです。

StorageReview と連携する

ニュースレター | YouTubeでご覧いただけます。 |ポッドキャスト iTunes/Spotifyは | Instagram | Twitter | TikTok | RSSフィード

ディビヤンシュ・ジェイン

機械学習エンジニア、ホームラボ愛好家、そしてテクノロジー愛好家。Storage Reviewでは、AIと最新のワークロードテストに取り組み、実践的な洞察とパフォーマンス分析を提供しています。