首页 企业版AI NVIDIA 的 GTC 2025 亮点:Blackwell GPU、DGX 系统和 AI-Q 框架

NVIDIA 的 GTC 2025 亮点:Blackwell GPU、DGX 系统和 AI-Q 框架

by 迪维扬什·贾恩

NVIDIA GTC 2025 推出了突破性的 AI 进步,包括 Blackwell Ultra GPU、AI-Q、Mission Control 和 DGX Spark。

NVIDIA 的 GTC 大会重点介绍了众多旨在改变多个领域 AI 发展的创新,并展示了 AI 硬件、软件和合作伙伴关系方面的突破。GTC 2025 的亮点无疑是揭开数据中心 GPU 及其路线图的面纱。NVIDIA 迄今为止生产的最强大的 AI 加速器是基于 Blackwell Ultra 架构的 B300。它的性能比 Blackwell GPU 已经处于行业领先水平的性能提高了 1.5 倍。

与 NVIDIA 已发布的 GPU 相比,性能提升令人震惊:

规格 H100 H200 B100 B200 B300
最大内存 80 GB HBM3 141 GB HBM3e 192 GB HBM3e 192 GB HBM3e 288 GB HBM3e
内存带宽 3.35 TB / s 4.8TB/秒 8TB/秒 8TB/秒 8TB/秒
FP4 张量核心 14 浮点数 18 浮点数 30 浮点数
FP6 张量核心 7 浮点数 9 浮点数 15 浮点数*
FP8 张量核心 3958 TFLOPS(~4 PFLOPS) 3958 TFLOPS(~4 PFLOPS) 7 浮点数 9 浮点数 15 浮点数*
INT 8 张量核心 3958 TOPS 3958 TOPS 7 流行音乐 9 流行音乐 15 浮点数*
FP16/BF16 张量核心 1979 TFLOPS(~2 PFLOPS) 1979 TFLOPS(~2 PFLOPS) 3.5 浮点数 4.5 浮点数 7.5 浮点数*
TF32 张量核心 989 TFLOPS 989 TFLOPS 1.8 浮点数 2.2 浮点数 3.3 浮点数*
FP32(密集) 67 TFLOPS 67 TFLOPS 30 TFLOPS 40 TFLOPS 信息未知
FP64 张量核心(密集) 67 TFLOPS 67 TFLOPS 30 TFLOPS 40 TFLOPS 信息未知
FP64(密集) 34 TFLOPS 34 TFLOPS 30 TFLOPS 40 TFLOPS 信息未知
最大功耗 700W 700W 700W 1000W 信息未知

注:标有“*”的值是粗略计算,并非 NVIDIA 的官方数据

Blackwell Ultra B300 与 Blackwell 同类产品一样,引入了新的精度格式,与当前的 H4 相比,FP30 Tensor Cores 可提供令人印象深刻的 6 PFLOPS,FP8/FP15 可提供 200 PFLOPS* 的性能。与 FP7.5 相比,FP8 计算性能提高了约 4 倍,与 FP4 性能相比,提高了近 8 倍。

NVIDIA 路线图上的下一个产品是 Vera Rubin GPU,计划于明年发布。Vera Rubin 的性能预计将是 Blackwell Ultra 的 3.3 倍,实现 50 PFLOPS 的密集 FP4 计算,高于 B300 的 15 PFLOPS。它将配备 ConnectX-9 和 NVLink-6 技术,带宽是前几代产品的两倍。Vera Rubin GPU 还将配备 HBM4 内存,内存带宽将提高 1.6 倍。从 Grace 过渡到 Vera CPU 还将显著增强 CPU 到 GPU 的互连,实现高达 1.8 TB/s 的速度。

NVIDIA 毫不掩饰地发布了其 Rubin Ultra GPU,预计将于 2027 年下半年推出。Rubin Ultra GPU 旨在使 Vera Rubin 的性能翻倍,每个 GPU 可提供惊人的 100 PFLOPS 密集 FP4 计算能力。Rubin Ultra 还将配备 1TB 先进的 HBM4e 内存。

NVIDIA DGX Spark

NVIDIA 展示了其 DGX Spark,这是在 项目数字 绰号,于今年早些时候在 CES 上亮相。DGX Spark 面向 AI 开发人员、研究人员、数据科学家和学生,采用新的 GB10 Blackwell 芯片,并配置 128 GB 统一内存。

NVIDIA 声称该系统可提供非凡的 1,000 AI TOPS,这将使 Spark 的性能达到与 RTX 5070 相当的实际水平。Spark 平台还集成了 ConnectX 7 SmartNIC,为 Spark 配备了 2x 200Gb 链路以简化数据移动。华硕、戴尔、HPE 和联想等 OEM 合作伙伴将很快提供品牌版本。预订已经开放,计划于 XNUMX 月开始发货。

NVIDIA DGX 站

NVIDIA还推出了更新的DGX Station,其定位为面向企业应用的终极桌面AI超级计算机,搭载GB300 Grace Blackwell Ultra芯片。

DGX Station 提供 784GB 的统一系统内存,同时提供 20 petaflops 的密集 FP4 AI 性能。这将 NVIDIA 的 ConnectX 8 SuperNIC 直接集成到系统中,实现 800 Gb/s 的网络连接,确保高性能网络满足其强大计算能力的需求。华硕、Box、戴尔、HPE、Lambda 和 Supermicro 等 OEM 合作伙伴计划构建 DGX Station 系统,预计今年晚些时候上市。

NVIDIA RTX Pro 布莱克威尔

GPU 的红利并未就此止步. 英伟达 推出了 RTX Pro Blackwell 系列,这是对其专业 GPU 产品线的全面更新,旨在加速所有平台上的 AI、图形和模拟工作负载。新一代产品涵盖桌面工作站、移动系统和服务器,旗舰产品 RTX Pro 6000 Blackwell 拥有业界领先的 96GB GPU 内存,可提供高达 4,000 TOPS 的 AI 性能。这些进步实现了实时光线追踪、快速 AI 推理和以前​​在桌面系统上无法实现的高级图形工作流程。

这些 GPU 中包含了大量技术创新,包括吞吐量提高 1.5 倍的 NVIDIA 流式多处理器、性能是前几代两倍的第四代 RT 核心,以及支持 AI 工作负载新 FP4 精度的第五代 Tensor 核心。其他增强功能包括 PCIe Gen 5 支持(带宽翻倍)、DisplayPort 2.1 兼容性(适用于极端分辨率显示配置),以及服务器版中用于安全 AI 工作负载的 NVIDIA 机密计算。

行业专家报告称,实际应用中的性能显著提升。Foster + Partners 的光线追踪速度比 RTX A5 快 6000 倍,而 GE HealthCare 发现医疗重建算法的 GPU 处理时间提高了 2 倍。汽车制造商 Rivian 在设计评审中利用新 GPU 实现了前所未有的 VR 视觉质量,而 SoftServe 报告称,在使用 Llama 3-3.3B 等大型 AI 模型时,生产力提高了 70 倍。也许最令人印象深刻的是,皮克斯指出,他们 99% 的制作镜头现在都可以在单个 GPU 的 96GB 内存中完成。

RTX Pro 6000 Blackwell 服务器版将这些功能带入数据中心环境,采用被动冷却设计,可实现全天候运行。与上一代硬件相比,这款以服务器为中心的变体可提供 24 倍的大型语言模型推理吞吐量、7 倍的基因组测序速度、5 倍的文本到视频生成速度以及 7 倍的推荐系统推理和渲染改进。这些 GPU 首次同时支持 vGPU 和多实例 GPU (MIG) 技术,该技术允许将每张卡划分为最多四个完全独立的实例,从而最大限度地提高不同工作负载的资源利用率。这些 GPU 的桌面版本将于 3.3 月上市,服务器版本将于 2 月上市,OEM 笔记本电脑版本将于 XNUMX 月上市。

NVIDIA 光子学

NVIDIA Photonics 是一项旨在改变 AI 数据中心内光纤网络的创新产品,它完善了硬件公告。通过用与交换机 ASIC 位于同一封装中的共封装光学引擎取代传统的可插拔收发器,NVIDIA Photonics 可最大限度地降低功耗并简化数据连接。

新的 Photonics 平台利用台积电的光子引擎优化技术,辅以微环调制器、高效激光器和可拆卸光纤连接器,旨在提供高达 3.5 倍的效率、10 倍的弹性,并实现比传统解决方案快 1.3 倍的部署速度。在展示其更广泛的生态系统方法时,NVIDIA 详细介绍了其与先进封装和光学元件制造领导者的合作如何成为实现这些性能提升的关键。

随着这些新发展,NVIDIA 展示了 Quantum-X 和 Spectrum-X 交换机系列中的三款新型交换机,它们均采用 200G SerDes。Quantum-X Infiniband 系列包括 Quantum 3450-LD,它拥有令人印象深刻的 144 个 800G 端口或 576 个 200G 端口,可提供 115Tb/s 的带宽。在 Spectrum-X 以太网交换机方面,产品组合范围从更紧凑的 Spectrum SN6810(提供 128 个 800G 端口或 512 个 200G 端口)到高密度 Spectrum SN6800(拥有 512 个 800G 端口和 2048 个 200G 端口)。所有这些交换机都采用液体冷却技术,以保持最佳性能和效率。

NVIDIA Quantum-X Photonics InfiniBand 交换机预计将于今年晚些时候上市,NVIDIA Spectrum-X Photonics 以太网交换机将于 2026 年由领先的基础设施和系统供应商上市。

利用 Nvidia Dynamo 将硬件和软件结合在一起

NVIDIA 的发布会上软件和硬件各占一半。为了充分利用新款 Blackwell GPU 的计算能力,NVIDIA 推出了 Dynamo,这是一款专为大规模服务 AI 模型而设计的 AI 推理软件。

NVIDIA Dynamo 是一个开源推理平台,旨在优化整个数据中心大规模 AI 模型的部署。Dynamo 独特的分布式分解架构使其能够跨多个 GPU 扩展单个查询,从而显著加快推理工作负载。通过智能地在输入令牌计算和输出令牌之间拆分处理任务,并利用 NVIDIA 的 NVLink 互连的优势,它可将 DeepSeek R30 等推理密集型模型的性能提升高达 1 倍。

值得注意的是,Dynamo 甚至无需额外硬件,即可在 Hopper GPU 上将现有 LLM(如 LLAMA)的吞吐量提高一倍,从而有效地使 AI 工厂的代币生成和收入潜力翻倍。借助 Dynamo,NVIDIA 为每个人带来了超大规模优化并使其可用,让每个人都能充分利用 AI 的变革潜力。

Dynamo 现已在 GitHub 上发布,并支持流行的后端,包括 PyTorch、BLM、SGLang 和 TensorRT。

Nvidia AI-Q:下一代 Agentic AI 系统

NVIDIA 还推出了 AI-Q(发音为“IQ”),这是将 AI 代理无缝连接到大型企业数据和工具的蓝图。这个开源框架使代理能够查询和推理多种数据类型,包括文本、图像和视频,并利用网络搜索和其他代理等外部工具。 

AI-Q 的核心是全新的 NVIDIA AgentIQ 工具包,这是一个今天在 GitHub 上发布的开源软件库。AgentIQ 有助于连接、分析和优化多智能体系统,使企业能够构建复杂的数字化劳动力。AgentIQ 与现有的多智能体框架无缝集成,包括 CrewAI、LangGraph、Llama Stack、Microsoft Azure AI Agent Service 和 Letta,允许开发人员逐步采用它或将其作为完整解决方案。 

NVIDIA 还与领先的数据存储提供商合作,打造 AI 数据平台参考架构,集成 NVIDIA NeMo Retriever、AI-Q Blueprint、Blackwell GPU、Spectrum X 网络和 Bluefield DPU,确保近乎实时的数据处理和快速的知识检索,为 AI 代理提供必要的商业智能。

AI-Q将于4月份开始向开发人员开放体验。

NVIDIA 任务控制:协调 AI 工厂

在其全面的软件战略的基础上,NVIDIA 推出了 Mission Control,这是业界唯一的统一运营和编排软件平台,旨在实现 AI 数据中心和工作负载的复杂管理自动化。Dynamo 优化推理,AI-Q 支持代理系统,而 Mission Control 则解决了支撑整个 AI 管道的关键基础设施层。

Mission Control 改变了企业部署和管理 AI 基础设施的方式,实现了端到端管理的自动化,包括配置、监控和错误诊断。该平台支持在基于 Blackwell 的系统上无缝转换训练和推理工作负载,使组织能够随着优先级的动态变化重新分配集群资源。通过整合 NVIDIA 收购的 Run:ai 技术,Mission Control 可将基础设施利用率提高 5 倍,同时将作业恢复速度提高 10 倍,而传统方法则需要人工干预。

该软件提供了对现代 AI 工作负载至关重要的多项运营优势,包括简化的集群设置、SUNK(Slurm 和 Kubernetes)工作流的无缝工作负载编排、具有开发人员可选控件的能源优化电源配置文件以及自主作业恢复功能。其他功能包括可自定义的性能仪表板、按需运行状况检查和楼宇管理系统集成,以增强冷却和电源管理。

包括戴尔、HPE、联想和超微在内的主要系统制造商已宣布计划提供配备 Mission Control 的 NVIDIA GB200 NVL72 和 GB300 NVL72 系统。戴尔将与 NVIDIA 一起将该软件整合到其 AI Factory 中,而 HPE 将在其 Grace Blackwell 机架式系统中提供该软件。联想计划更新其混合 AI Advantage 解决方案以包括 Mission Control,而超微将把它集成到其 Supercluster 系统中。

NVIDIA Mission Control 现已可用于 DGX GB200 和 DGX B200 系统,预计今年晚些时候将支持 DGX GB300、DGX B300 和 GB300 NVL72 系统。对于希望开始管理 AI 基础设施的组织,NVIDIA 还宣布 Base Command Manager 软件将很快免费提供给每个系统最多 XNUMX 个加速器,无论集群大小如何。

结语

NVIDIA 的 GTC 2025 为 AI 技术的变革性飞跃奠定了基础,揭示了硬件、软件和基础设施方面的突破性进步。从基于 Blackwell Ultra 架构构建的强大 B300 GPU 到革命性的 DGX Spark 和 DGX Station 系统,NVIDIA 继续重新定义 AI 计算的可能性。NVIDIA Photonics、Dynamo 推理软件、AI-Q 代理框架和 Mission Control 编排平台的推出将帮助企业更快地进入市场并更有效地扩展,无疑将进一步巩固 NVIDIA 在该领域的领先地位。

然而,这只是冰山一角。GTC 上还有更多的创新和见解值得探索。请继续关注我们本周的其他新闻文章,我们将继续为您带来最新公告并深入探讨 NVIDIA 令人兴奋的未来。

参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅