存储评论网

英特尔瞄准 OCP 2025 的 AI 推理,推出 Crescent Island GPU 和 Gaudi 3 Racks

企业版  ◇  服务器

在 2025 年 OCP 全球峰会上,英特尔重点强调了 AI 推理,并发布了两项关键进展:名为“Crescent Island”的新型数据中心 GPU 和 Gaudi 3 的机架级参考设计。这两项进展都与从模型训练到实时、广泛推理的日益转变相契合,其中延迟、内存带宽、效率和操作简便性等因素现在至关重要。

从静态训练到普适实时推理

英特尔首席技术官 Sachin Katti 总结了这一转变,他指出,随着代理人工智能 (Agentic AI) 的普及,推理将变得更加连续、情境丰富,并且系统密集度也越来越高。为了管理不断增长的令牌量、复杂的模态组合以及严格的服务等级协议 (SLA) 要求,一个将最佳芯片与开放的、以开发者为中心的软件堆栈相结合的异构基础架构变得必不可少。在这种环境下,英特尔 Xe 架构数据中心 GPU 能够随着序列长度和令牌速率的增加提供所需的容量和可靠性,而 Gaudi 3 则支持开放、可扩展的推理生态系统,并具有可预测的总拥有成本 (TCO)。

关键点不仅仅是“更快的芯片”。推理的成功取决于系统集成:拓扑感知的内存、灵活的互连、与利用率配置文件相匹配的电源和冷却系统,以及将模型、令牌和流视为“一等公民”的编排。企业不希望在需要跨模型、框架和服务堆栈进行迭代时被锁定。

跨越 PC、边缘和数据中心

英特尔声称,其在提供端到端产品方面拥有独特的优势,其AI PC、工业边缘计算和数据中心机架均基于至强6 CPU、Gaudi 3加速器和英特尔GPU。其共同点包括:

  • PCIe 的多样性灵活性使得可以在适当的时候重复使用现有的占用空间,并允许在需要时扩展到以结构为中心的机架。
  • 机架规模设计确保可预测的每瓦性能,并在高密度和热要求需要时包括液体冷却选项。
  • 一个全面的集成软件平台,旨在确保跨各种硅片类型和部署级别的无缝开发。

与 OCP 合作支持了该公司对开放、可参考设计的偏好,这些设计更易于采购、验证和在运营中扩展。

Crescent Island:专为推理经济而调校的数据中心 GPU

Crescent Island 是英特尔即将推出的数据中心 GPU,专为需要高令牌吞吐量且无需高级电源或冷却解决方案的风冷企业服务器而设计。它注重实用性:优先考虑成本效益和能效,同时提供现代推理任务所需的内存容量和带宽。

重点包括:

  • Xe3P 微架构专注于每瓦性能。这与稳态推理非常契合,在稳态推理中,利用率持续稳定,且成本敏感度较高。
  • 卡上配备 160 GB LPDDR5X 内存。对于 LLM/RAG 服务、长上下文摘要和多模态流水线,内存容量和带宽通常对 QPS 和尾部延迟的影响大于对原始 TOPS 的影响。
  • 广泛的数据类型支持,专为“令牌即服务”提供商设计。混合精度/量化灵活性对于压缩吞吐量并保持生产端点的准确性至关重要。
  • 通过英特尔开放、统一的堆栈实现软件就绪。Arc Pro B 系列 GPU 的早期优化旨在简化开发人员工作流程并最大限度地减少移植阻力。
  • 时间表:Crescent Island 的客户样品预计将于 2026 年下半年推出。对于计划 2026-2027 年更新周期的买家来说,这为现在试用软件堆栈和模型服务模式提供了一个实用的窗口。

新月岛致力于实现大规模推理经济效益。它采用风冷设计,容量优先,注重每瓦性能。假设您的工作负载主要由令牌密集型服务主导,并具有严格的延迟 SLO。在这种情况下,160 GB 的板载内存和高效的数据类型应该能够转化为更高的每瓦并发会话数,并随着序列长度的增加而减少集群意外。

Gaudi 3:适用于大型模型和实时推理的可参考机架规模

高迪 3 从 PCIe 部署扩展到完整的机架级配置,提供一条扩展路径,无需一次性完成架构设计。全新机架级参考设计面向正在标准化大型模型推理和延迟关键型实时系统的企业。

戴尔 PowerEdge XE7740 英特尔 Gaudi 3 GPU

关键要素:

  • PCIe 到机架的流程从当前服务器中的 PCIe 卡开始,并根据模型大小、并发性和 SLA 配置文件扩展到机架。这种方法是一种常见的企业策略,有助于最大限度地降低项目风险。
  • 每个机架最多支持 64 个加速器,配备 8.2 TB 高带宽内存。其关键特性——内存域 (HBD),支持更多参数和更长的内存上下文,从而减少性能下降并实现更一致的尾部延迟。
  • 在加速器密度下,液体冷却选项至关重要,因为单靠空气冷却会限制持续推理。
  • 编排涉及开放软件堆栈,例如 Kubernetes、标准模型服务器和流行框架,这简化了与现有 MLOps 和服务网格架构的集成。

在生产推理中,内存拓扑和一致的热管理等因素超越了理论峰值性能。Gaudi 3 机架配备 64 个加速器,共计 8.2 TB HBM,可满足实际需求,例如加载多个大型变体、管理长提示以及处理突发事件而不会造成抖动。在这种密度下,液冷不仅仅是可选的;它对于在热压力下维持 QPS 和延迟至关重要。

时间线

  • 软件:英特尔的统一开放软件堆栈正在 Arc Pro B 系列 GPU 上准备就绪,为开发人员提供优化和 CI/CD 集成的早期窗口。
  • 新月岛:预计于2026年下半年进行客户抽样。计划评估软件就绪性、内存驱动服务配置以及风冷数据中心的限制。
  • 高迪 3 个机架:参考设计指定最多 64 个加速器/机架、8.2 TB HBM 和液体冷却,并尽早与您的 DC/colo 团队协调设施和电源/冷却范围。

参与 StorageReview

订阅消息 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅

哈罗德弗里茨

自 IBM 创建 Selectric 以来,我一直在科技行业工作。 不过,我的背景是写作。 因此,我决定退出售前业务,回归本源,从事一些写作工作,但仍从事技术工作。