首页 企业版云端 HPE推出增强型AI堆栈,配备私有云、Alletra存储SDK和Blackwell GPU支持

HPE推出增强型AI堆栈,配备私有云、Alletra存储SDK和Blackwell GPU支持

by 莱尔·史密斯

HPE 使用 ProLiant 服务器、私有云 AI、Alletra SDK 和对 RTX PRO 6000 Blackwell GPU 的 OpsRamp 支持更新其 AI 基础设施。

HPE 已针对其 NVIDIA AI Computing by HPE 产品组合推出一系列更新。这些增强功能旨在更好地支持 AI 开发的整个生命周期,从数据提取和训练到实时推理和运营管理。HPE 正专注于企业基础设施内 AI 的整个生命周期。其最新更新体现了对灵活性、可扩展性和开发人员准备度的重视,首先是 HPE Private Cloud AI 中的新功能。

HPE 私有云 AI 的新功能旨在减少开发人员的摩擦

HPE Private Cloud AI 迎来核心更新,这是一款与 NVIDIA 合作开发的全栈解决方案。该平台支持企业在本地或混合环境中运行生成式 AI (GenAI) 和代理工作负载,并且现在将支持 NVIDIA AI Enterprise 的功能分支模型更新。

这意味着开发人员可以在不影响稳定生产模型的情况下测试新的 AI 框架、微服务和 SDK,这种方法与现代软件开发中的常用方法相符。它为实验提供了更安全的环境,同时保持了企业级 AI 所需的稳健性。

HPE Private Cloud AI 还将支持经 NVIDIA Enterprise AI Factory 验证的设计。此次整合将为企业提供更清晰的路径,帮助他们使用 NVIDIA 经过测试的参考设计构建 AI 解决方案,从而更轻松地实现可靠且一致的扩展。

Alletra Storage 的新 SDK 简化了 Agentic AI 的数据工作流程

HPE还为其Alletra Storage MP X10000系统推出了一款新的软件开发套件(SDK),旨在与NVIDIA AI数据平台协同工作。该SDK使企业能够更轻松地将其数据基础设施连接到NVIDIA的AI工具。

其主要目标是帮助管理非结构化数据(例如文档、图像或视频),这些数据通常需要清理和整理后才能用于 AI 项目。该 SDK 支持的任务包括:使用有用信息标记数据、组织数据以加快搜索速度,以及为 AI 模型训练和推理做好准备。

它还使用 RDMA(远程直接内存访问)技术来加速存储和 GPU 之间的数据传输,这有助于提高处理大型 AI 工作负载时的性能。

此外,Alletra X10000 的模块化设计允许企业分别扩展存储和性能,从而根据具体项目需求调整配置。通过整合这些工具,HPE 和 NVIDIA 旨在为企业提供更高效的数据访问和处理方式,涵盖从本地系统到云环境的各种数据。

HPE 服务器在 AI 基准测试中名列前茅

HPE ProLiant Compute DL380a Gen12 服务器近期在 10 项 MLPerf Inference: Datacenter v5.0 基准测试中斩获殊荣。这些测试评估了各种高要求 AI 模型的性能,包括用于语言任务的 GPT-J、用于大规模生成式 AI 的 Llama2-70B、用于图像分类的 ResNet50 以及用于对象检测的 RetinaNet。强劲的基准性能体现了该服务器的当前配置,包括高性能 NVIDIA H100 NVL、H200 NVL 和 L40S GPU。

HPE ProLiant Compute DL380a Gen12

在此基础上,HPE 计划从 10 月 6000 日起提供最多可配置 4 个 NVIDIA RTX PRO XNUMX Blackwell 服务器版 GPU 的配置,从而扩展服务器的功能。这一新增功能有望进一步增强服务器对企业 AI 应用的适用性,例如多模态推理、基于模拟的 AI(通常称为物理 AI)、模型微调以及高级设计或媒体工作流程。

DL380a Gen12 提供两种冷却选项,以应对高需求工作负载:传统风冷和直接液冷 (DLC)。DLC 配置充分利用了 HPE 在热管理领域的长期专业知识,有助于在持续的计算密集型操作中保持系统稳定性和性能。

该服务器搭载 HPE 的 Integrated Lights Out (iLO) 7 管理引擎,并采用硅信任根 (Silicon Root of Trust) 技术提供硬件级安全保护。它是首批采用后量子加密设计的服务器平台之一,并符合 FIPS 140-3 3 级标准——一项高级加密安全认证。

惠普 iLO 7

在管理方面,HPE Compute Ops Management 提供自动化生命周期工具,可跟踪系统健康状况、及早标记潜在问题并通过 AI 驱动的分析提供能源使用情况洞察。

除了 DL380a,HPE 的服务器产品线也展现了强劲实力。搭载双路 NVIDIA GH384 NVL12 GPU 的 ProLiant Compute DL200 Gen2 在四项 MLPerf v5.0 测试中名列第一,其中包括 Llama2-70B 和 Mixtral-8x7B 等大型模型。同时,搭载 670 个 NVIDIA H8 SXM GPU 的 HPE Cray XD200 在 30 个基准测试场景中领先,涵盖大型语言模型和基于视觉的 AI 任务。HPE 系统在超过 50 个测试类别中名列前茅,为其 AI 基础设施能力提供了第三方验证。

OpsRamp 扩展以涵盖用于基础设施可观察性的全新 GPU 类

在运营方面,HPE 正在扩展其 OpsRamp 软件的支持,以管理使用即将推出的 NVIDIA RTX PRO 6000 Blackwell GPU 的环境。此扩展使 IT 团队能够始终了解其 AI 基础设施,从 GPU 利用率和热负载到内存使用情况和功耗。

该软件为混合 AI 环境带来了全栈可观察性,使团队能够主动自动化响应、优化作业调度,并根据历史趋势管理资源分配。随着企业对 AI 的投资不断增长,这些可观察性和优化工具对于运行可靠且经济高效的 AI 部署至关重要。

可用性

功能分支支持 HPE 私有云 AI 中的 NVIDIA AI Enterprise 预计夏季将出现。 HPE Alletra Storage MP X10000 的 SDK,包括支持直接访问 NVIDIA 加速基础设施的内存,也计划于 2025 年夏季上市。 HPE ProLiant Compute DL380a Gen12 服务器配置 NVIDIA RTX PRO 6000 Blackwell 服务器版 GPU,将于 4 年 2025 月 XNUMX 日起接受订购。 HPE的OpsRamp软件 将与 RTX PRO 6000 的发布同步推出,以支持其管理和优化。

通过这些更新,HPE 似乎正在采取措施进一步加强其 AI 基础设施产品组合,专注于创建可扩展、可管理的环境,以支持各种 AI 工作负载,而不会使操作过于复杂。

参与 StorageReview

电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅