在 AWS re:Invent 大会上,NVIDIA 和亚马逊云服务 (AWS) 宣布加强合作伙伴关系,重点关注互连技术、云基础设施、开放模型和物理人工智能。此次合作深化了 NVIDIA 与 AWS 技术栈的集成,涵盖定制芯片、网络、人工智能软件和机器人仿真等领域。合作重点在于生产级人工智能和自主云的需求。
面向 AWS 定制芯片和下一代 AI 基础设施的 NVLink Fusion
此次公告的重点在于AWS对NVIDIA NVLink Fusion的支持。AWS将获得NVLink Fusion的授权,用于构建定制化的AI基础设施。AWS计划将NVLink Fusion技术添加到其广泛的定制芯片产品线中,其中包括面向推理任务和智能体AI模型训练的下一代Trainium4加速器。通过使用NVIDIA NVLink Fusion,AWS将把NVIDIA NVLink纵向扩展互连技术与NVIDIA MGX机架架构及其定制芯片连接起来。此举旨在提升性能、简化系统设计,并加快下一代云规模AI平台的市场化进程。
AWS 也受益于 NVLink Fusion 供应商生态系统,该生态系统提供完整的机架级解决方案,包括机架、机箱、电源供应和冷却子系统。该生态系统简化了 AWS 构建高密度、AI 优化基础设施时的采购和集成流程。Trainium4 旨在与 NVLink 和 NVIDIA MGX 无缝协作。这标志着 NVIDIA 和 AWS 之间多代 NVLink Fusion 合作的第一阶段。AWS 已大规模部署了搭载 NVIDIA GPU 的 NVIDIA MGX 机架;集成 NVLink Fusion 旨在标准化和简化跨不同平台(混合使用 AWS 芯片和 NVIDIA 硬件)的部署和系统管理。
此外,AWS 还使用各种 Graviton CPU 来处理一系列通用和云原生工作负载。AWS Nitro 系统通过支持虚拟化、安全性和数据平面卸载发挥着至关重要的作用,从而提升 AWS 服务的整体性能和安全性。
NVIDIA创始人兼首席执行官黄仁勋将此次合作定义为对日益增长的GPU计算需求的响应,而这种需求是由更强大的AI模型和更广泛的企业应用所驱动的。他将NVLink Fusion与AWS Trainium4的集成描述为将NVIDIA的可扩展架构与AWS的定制芯片相结合,从而打造下一代加速平台,推动他所谓的AI产业革命。黄仁勋表示,其目标是让先进的AI更易于获取,并推动全球基础设施向广泛智能化方向发展。
AWS 首席执行官 Matt Garman 强调了两家公司长达 15 年的深厚合作关系,并指出此次合作将推动大规模 AI 基础设施的发展。他提到了客户获得的成果,包括更高的性能、更佳的效率和更强的可扩展性。Garman 还强调了 Trainium、Graviton 和 Nitro 对 NVIDIA NVLink Fusion 的支持,旨在为 AWS 客户解锁新的技术功能,并促进更快的创新。
NVIDIA Vera Rubin架构在AWS上的应用
在网络方面,基于 AWS 的 NVIDIA Vera Rubin 架构将支持 AWS Elastic Fabric Adapter 和 Nitro 系统。该设计为客户提供灵活、强大的网络选项,同时确保与 AWS 现有云基础设施的完全兼容性,并加速新型 AI 服务的交付。
Blackwell 和 AWS AI Factory 实现规模与主权的融合
AWS 正在扩展其加速计算产品组合,新增了 NVIDIA Blackwell 架构,包括用于大规模训练和推理集群的 NVIDIA HGX B300 系统和 NVIDIA GB300 NVL72 GPU。此外, NVIDIA RTX PRO 6000 Blackwell 服务器版 GPU专为视觉和图形密集型应用而设计的 s 预计很快将在 AWS 上推出。
这些GPU是AWS AI Factory基础设施的核心组成部分。这项全新的AI云服务面向需要在自有数据中心部署专用AI基础设施并由AWS管理的客户。该模式可在客户可控的设施内提供云级AI基础设施,确保企业对其自身环境中的AI资源拥有监管权和安全保障。
它还注重数据控制,满足本地数据驻留要求。这样,敏感信息就能保留在指定的地理范围内,既符合监管标准,又能确保系统顺畅运行。该模型提供对大规模高级训练和推理平台的访问,使用户能够高效地开发、部署和管理跨大型数据集的复杂人工智能解决方案。
全球承诺
NVIDIA 和 AWS 承诺在全球范围内部署自主 AI 云,并将先进的 AI 功能带到需要遵守严格自主 AI 政策的地区。通过 AWS AI Factory,两家公司计划提供安全、自主的 AI 基础设施,在满足日益严格的监管和数据主权要求的同时,提供无与伦比的计算能力。
对于公共部门组织而言,AWS 将 AI Factory 视为联邦政府超级计算和人工智能战略的一次重大转变。客户可以将 AWS 可靠、安全且可扩展的云基础设施与 NVIDIA Blackwell GPU 和完整的 NVIDIA 加速计算堆栈相结合,包括 NVIDIA Spectrum-X 以太网交换机。
目标是创建一个统一的系统,使客户能够访问先进的人工智能服务和功能,从而大规模地训练和部署超大型模型。此外,各组织对符合当地法规的专有数据保持严格控制。
NVIDIA 软件在 AWS 上的应用:简化开发者和数据体验
NVIDIA 和 AWS 还在软件和数据层方面开展合作,以加速非结构化数据的处理并管理代理生命周期。
Amazon OpenSearch Service 现已支持无服务器 GPU 加速,用于构建向量索引,该加速由 NVIDIA cuVS 提供支持。cuVS 是一个用于 GPU 加速向量搜索和聚类的开源库。此次集成标志着 GPU 正逐渐成为处理大量向量数据和非结构化数据工作负载的默认引擎。
早期用户报告称,他们的工作流程得到了显著改善,矢量索引速度提升高达十倍,效率大幅提高。此外,这种新方法的成本仅为传统方法的四分之一左右,从而节省了大量资金。这些进步被视为一项突破,为用户带来了速度和经济效益。
这些性能和成本方面的提升有助于降低搜索延迟、加快写入速度并提高动态 AI 模式(例如检索增强生成)的吞吐量,在这些模式中,快速矢量索引至关重要。AWS 是首家提供由 NVIDIA GPU 支持的无服务器矢量索引的主流云服务提供商。
要将 AI 代理从概念验证过渡到生产,客户需要看到性能数据、优化工具和可扩展的管理。
NVIDIA 和 AWS 正在携手合作,通过整合多个关键组件,打造完整的端到端解决方案。此次合作旨在简化双方平台上的代理开发、管理和优化流程。
该计划的核心是 Strands Agents,旨在帮助用户创建和管理代理。与之相辅相成的是 NVIDIA NeMo Agent Toolkit,它提供了用于深度分析、性能调优和优化的高级工具,确保高效部署。同时,Amazon Bedrock 的 AgentCore 为 AWS 环境中的代理提供安全、可扩展的基础架构,从而实现跨应用程序的可靠运行。这些要素共同确保从原型构建到可用于生产环境、可观测且可扩展的 AI 代理的平稳过渡。
此次扩展的软件合作伙伴关系建立在NVIDIA现有AWS集成的基础上,包括NVIDIA NIM微服务和框架,例如用于语音处理的NVIDIA Riva和用于科学工作负载的NVIDIA BioNeMo。这些功能与在Amazon SageMaker和Amazon Bedrock上的模型开发和部署相结合,旨在加速智能体AI、语音AI和科学应用的部署,同时利用用户熟悉的AWS服务。
在 AWS 上加速物理人工智能和机器人技术
此次合作还延伸至物理人工智能和机器人领域,其中机器人模型的训练和部署依赖于高质量的数据集和强大的仿真框架。
NVIDIA Cosmos 世界基础模型 (WFM) 现已作为 NVIDIA NIM 微服务在 Amazon EKS 上提供。这为客户提供了一种在云原生、基于 Kubernetes 的环境中运行实时机器人控制和仿真工作负载的方法,从而确保可靠性和灵活性。
对于批量处理和离线任务,例如大规模合成数据生成,Cosmos WFM 也以容器的形式部署在 AWS Batch 上。这支持高吞吐量的工作流,可以大规模生成各种世界状态和场景。
Cosmos生成的世界状态可用于在NVIDIA Isaac Sim和Isaac Lab等开源仿真和学习框架中训练和验证机器人行为。此过程创建了一个完整的流程,有助于各个开发和测试阶段。最初,Cosmos WFM生成结构化且多样化的环境,从而提供广泛的评估场景。
接下来,Isaac Sim 和 Isaac Lab 在这些环境中模拟机器人系统和策略。这一模拟阶段能够在受控环境下对机器人行为进行全面测试和改进。最后,在将模型部署到真实机器人之前,会通过模拟进行验证。这种方法最大限度地降低了风险,减少了与迭代测试相关的成本,从而确保了更可靠、更高效的开发周期。
多家机器人公司已在AWS上部署NVIDIA Isaac平台,并将其应用于机器人开发生命周期的各个阶段。这些公司包括Agility Robotics、Agile Robots、ANYbotics、Diligent Robotics、Dyna Robotics、Field AI、Haply Robotics、Lightwheel、RIVR和Skild AI。他们的应用场景涵盖了从收集、存储和处理机器人生成的数据,到扩展实际应用所需的训练和仿真任务。
长期合作与行业定位
这些扩展公告建立在AWS和NVIDIA长期合作关系的基础上。近期,NVIDIA荣获AWS全球年度最佳GenAI基础设施和数据合作伙伴奖。该奖项旨在表彰具备AWS生成式人工智能能力认证的技术合作伙伴,重点关注那些支持向量嵌入、数据存储和管理以及跨多种数据形式和格式的合成数据生成的合作伙伴。
此次深化合作使AWS和NVIDIA能够提供紧密集成、云规模的AI平台。这些平台旨在满足性能和主权方面的需求,同时为企业提供一条更直接的路径,从实验性AI项目过渡到大规模生产部署。




Amazon