首页 企业版 英特尔吹捧 HPC 和 AI 工作负载性能领导地位,在 ISC 23 上更新 Granite Rapids 路线图

英特尔吹捧 HPC 和 AI 工作负载性能领导地位,在 ISC 23 上更新 Granite Rapids 路线图

by 哈罗德弗里茨

在 ISC 23 的演讲中,英特尔强调了其在高性能计算 (HPC) 和人工智能 (AI) 工作负载方面的性能领导地位,分享了其未来 HPC 和 AI 产品组合,并宣布了雄心勃勃的国际合作计划,以使用 Aurora超级计算机为科学和社会开发生成人工智能模型。

在 ISC 23 的演讲中,英特尔强调了其在高性能计算 (HPC) 和人工智能 (AI) 工作负载方面的性能领导地位,分享了其未来 HPC 和 AI 产品组合,并宣布了雄心勃勃的国际合作计划,以使用 Aurora超级计算机为科学和社会开发生成人工智能模型。

竞争性能是最重要的,英特尔的结果在竞争中是明显的赢家。 英特尔的数据中心 GPU Max 系列在各种工作负载上的性能平均优于 NVIDIA H100 PCIe 卡 30%。 软件供应商 Ansys 的独立结果表明,Max 系列 GPU 在人工智能加速的 HPC 应用程序上比 H50 提速了 100%。

在高性能共轭梯度 (HPCG) 基准测试中,至强 Max 系列 CPU 与 AMD 的 Genoa 处理器相比提高了 65%,而且功耗更低。 HPC 的最爱,第四代英特尔至强可扩展处理器,比 AMD 的 Milan4 平均提速 50%。 BP 最新的第 4 代 Xeon HPC 集群的性能比其上一代处理器提高了 4 倍,并提高了能效。 Gaudi8 深度学习加速器在深度学习、训练和推理方面具有竞争力,性能比 NVIDIA A2 快 2.4 倍。

下一代 CPU 和 AI 优化的 GPU

Intel 公司副总裁兼超级计算事业部总经理 Jeff McVeigh 介绍了 Intel 为满足高内存带宽需求而设计的下一代 CPU。 英特尔为 Granite Rapids 开发了一种新型 DIMM——多路复用器组合列 (MCR)。 基于 DDR8,800,MCR 实现了每秒 5 兆传输的速度和双路系统中超过 1.5 太字节/秒 (TB/s) 的内存带宽能力。

英特尔还披露了 Supermicro 基于 AI 优化的 x8 Max 系列 GPU 子系统,旨在加速深度学习训练。 OEM 预计将在今年夏天的某个时候提供带有 Max 系列 GPU x4 和 x8 OAM 子系统和 PCIe 卡的解决方案。

英特尔的下一代 Max 系列 GPU Falcon Shores 将使客户能够灵活地实施系统级 CPU 和离散 GPU 组合,以应对未来不断变化的新工作负载。 Falcon Shores 系统采用模块化、基于区块的架构,使其能够:

  • 支持从 FP64 到 BF16 到 FP8 的 HPC 和 AI 数据类型。
  • 支持高达 288GB 的​​ HBM3 内存以及高达 9.8TB/s 的总带宽和大幅改进的高速 I/O。
  • 增强 CXL 编程模型。
  • 通过oneAPI呈现统一的GPU编程接口。

科学的生成人工智能

阿贡国家实验室与英特尔和 HPE 合作,宣布计划为科学研究界创建一系列生成式 AI 模型。 这些用于科学的生成式 AI 模型将根据来自生物学、化学、材料科学、物理学、医学和其他来源的一般文本、代码、科学文本和结构化科学数据进行训练。

由此产生的模型(具有多达 1 万亿个参数)将用于各种科学应用,从分子和材料的设计到跨数百万来源的知识综合,以提出系统生物学、高分子化学方面令人兴奋的新实验和能源材料、气候科学和宇宙学。 该模型还将用于加速识别与癌症和其他疾病相关的生物过程,并为药物设计提供目标建议。

为了推进该项目,Argonne 正在带头开展一项国际合作,其中包括:

  • 英特尔
  • HPE
  • 能源实验室部
  • 美国和国际大学
  • 非营利组织
  • 国际合作伙伴

Aurora 有望在今年推出时提供超过 XNUMX exaflops 的峰值双精度计算性能。

oneAPI 使 HPC 应用程序受益

最新的英特尔 oneAPI 工具通过 OpenMP GPU 卸载为 HPC 应用程序提供加速,扩展对 OpenMP 和 Fortran 的支持,并通过优化的框架(包括 TensorFlow 和 PyTorch)和人工智能工具加速人工智能和深度学习,从而提高性能。

通过 oneAPI 的 SYCL 实现、Codeplay 开发的适用于 NVIDIA 和 AMD 处理器的 oneAPI 插件,以及将代码从 CUDA 迁移到 SYCL 和 C++ 的英特尔 DPC++ 兼容性工具,程序员可以更轻松地进行多体系结构编程,其中 90-95% 的代码通常会自动迁移. 生成的 SYCL 代码显示出与在 NVIDIA 和 AMD 本地系统语言上运行的相同代码相当的性能。 数据显示,在 Max 系列 GPU 上运行的 DPEcho 天体物理学应用程序的 SYCL 代码比在 NVIDIA H100 上运行的相同 CUDA 代码高出 48%。

参与 StorageReview

电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅