技术按周期发展,目前没有比强调边缘 AI 更明显的周期了。 特别是,我们发现了向边缘推理的巨大转变。 NVIDIA 是这一推动的重要组成部分,希望推动其 GPU 在数据中心之外的采用。 尽管如此,事实是企业需要更快地做出更多决策,因此 AI 基础设施需要更接近数据。
技术按周期发展,目前没有比强调边缘 AI 更明显的周期了。 特别是,我们发现了向边缘推理的巨大转变。 NVIDIA 是这一推动的重要组成部分,希望推动其 GPU 在数据中心之外的采用。 尽管如此,事实是企业需要更快地做出更多决策,因此 AI 基础设施需要更接近数据。
还记得 Hub-and-Spoke 吗?
在“过去”,我们讨论了数据创建方面的边缘,以及如何通过采用传统的轴辐式方法快速有效地将数据返回数据中心。 该设计让位于基于核心、访问和分布的分层设计,具有大量冗余和硬件,其唯一目的是将数据返回到主数据中心。 所有在边缘收集的数据只是为了传输回主数据中心进行处理,然后推回边缘设备,事实证明效率低下、成本高且耗时。
因此,也许这种轴辐式设计毕竟还算不错。 随着人工智能在边缘提供更多智能的推动以及云计算的颠覆,设计似乎正在显着影响网络设计、边缘部署和数据处理位置。 事实上,今年的 HPE发现 如果您只是将核心换成云,那么会议的标语在云热潮之前的任何一年都会非常熟悉,“边缘到云会议”。
跃上边缘势头
HPE 并不是唯一一家意识到边缘到云计算对行业的重要性的供应商,Dell Technologies 在 Dell Technologies World 活动中也讲述了类似的故事。 IBM、联想、NetApp 和 Supermicro 也一直表示需要在边缘做更多事情,同时更有效地利用云资源。
是什么推动了边缘计算的激光焦点? 客户正在从传感器、物联网设备和自动驾驶汽车数据收集中收集边缘生成大量数据。 接近源头的数据将带来商业利益,包括更快的洞察力和准确的预测以及更快的响应时间和更好的带宽利用率。 边缘 AI 推理(使用 AI 技术的可操作智能)可提高性能、缩短时间(推理时间)并减少对网络连接的依赖,最终提高业务底线。
为什么不在云端进行边缘推理?
为什么边缘推理不能在云端完成? 它可以,并且对于时间不敏感且被视为非关键的应用程序,云 AI 推理可能是解决方案。 然而,实时推理面临许多技术挑战,延迟是其中的主要挑战。 此外,随着需要在边缘处理的物联网设备和相关应用程序的持续增长,让所有设备都可以使用高速云连接可能是不可行的。
边缘计算带来了自身的挑战,包括现场支持、物理和应用程序安全性以及导致存储受限的有限空间。 今天的边缘服务器为传统的边缘工作负载提供了足够的计算能力,GPU 增加了更多的能力而不增加复杂性。
边缘期权的增长
有趣的是,较小的系统供应商主要主导了边缘基础设施市场。 例如,Supermicro 多年来一直在谈论 5G 和电线杆上的数据中心,而 Advantech 和许多其他专业服务器提供商也一直在做同样的事情。 但随着 GPU 的改进,更重要的是,随着支持它们的软件的改进,边缘人工智能的整个概念变得更加真实。
我们最近在我们的实验室中以几种不同的方式看到了这种转变。 首先,新的服务器设计采用了 NVIDIA 的单插槽、低功耗 GPU,例如 A2 和广受欢迎的 T4。 最近联想和超微都给我们送来了集成了这些GPU的服务器来评测,性能也很不错。
美超微 IoT SuperServer SYS-210SE-31A 与 NVIDIA T4
其次,基础设施提供商非常重视提供边缘解决方案,这些解决方案的指标直接与低延迟和安全性等数据中心主要指标相关联。 我们最近研究了其中一些用例 戴尔 PowerVault ME5. 尽管 ME5 定位为 SMB 存储解决方案,但由于其成本/性能比,MEXNUMX 引起了边缘用例的极大兴趣。
归根结底,边缘推理的故事非常简单。 它归结为 GPU 处理数据的能力,通常是动态处理。 我们一直在努力扩展我们的测试,以更好地了解这些新服务器和 GPU 如何发挥边缘推理的作用。 具体来说,我们研究了流行的边缘工作负载,例如图像识别和自然语言处理模型。
测试背景
我们正在使用 MLPerf Inference: Edge 基准测试套件。 这套工具比较了各种现实世界边缘场景中流行的 DL 模型的推理性能。 在我们的测试中,我们有 ResNet50 图像分类模型和用于问答任务的 BERT-Large NLP 模型的数字。 两者都在 Offline 和 SingleStream 配置中运行。
离线场景以“批处理模式”评估推理性能,此时所有测试数据都立即可用,并且不考虑延迟。 在这个任务中,推理脚本可以按任意顺序处理测试数据,目标是最大化每秒的查询数(QPS=吞吐量)。 QPS 数越高越好。
相比之下,单流配置一次处理一个测试样本。 一旦对单个输入执行了推理(在 ResNet50 的情况下,输入是单个图像),就会测量延迟,并使下一个样本可供推理工具使用。 目标是最小化处理每个查询的延迟; 延迟越低越好。 为简洁起见,查询流的第 90 个百分位延迟被捕获为目标指标。
下图来自一个 英伟达博客 发布有关 MLPerf 推理 0.5 的帖子,它可以很好地可视化场景。 你可以在原文中阅读更多关于各种场景的信息 MLPerf 推理论文在这里.
边缘推理——联想 ThinkEdge SE450
经过审查 ThinkEdge SE450,我们与联想合作,在系统中的 NVIDIA A2 和 T4 上运行 MLPerf。 目标是了解 SE450 仅用一个 GPU 可以做什么。 应该注意的是,该系统最多可以支持四个低功耗 NVIDIA GPU,并且根据这些数字推断出所需卡的数量是合乎逻辑的。
对于此测试,我们直接与联想合作,在我们的实验室中使用 NVIDIA A2 和 T4 测试各种配置。 借助 MLPerf,供应商拥有针对其特定平台进行调整的特定测试工具。 我们使用联想的测试工具进行边缘推理基准测试,以了解这些流行 GPU 的出处。
我们实验室对 SE2 中 A4 和 T450 的测试结果:
基准 | NVIDIA A2(40-60W TDP) | 英伟达 T4(70W TDP) |
---|---|---|
ResNet50 单流 | 0.714ms 延迟 | 0.867 延迟 |
ResNet50 当前离线 | 3,032.18 个样本/秒 | 5,576.01 个样本/秒 |
BERT 单流 | 8.986ms 延迟 | 8.527ms 延迟 |
BERT 当前离线 | 244.213 个样本/秒 | 392.285 个样本/秒 |
有趣的是,NVIDIA T4 自始至终都表现得非常好,这让一些仅仅基于它的年龄的人感到惊讶。 T4 的性能配置文件是 T4 仍然广受欢迎的一个非常明显的原因。 也就是说,A2 在实时图像推理方面比 T4 具有明显的延迟优势。
最终,GPU 的决定是针对手头的特定任务进行调整的。 较旧的 NVIDIA T4 消耗更多功率 (70W) 并使用 PCIe Gen3 x16 插槽,而较新的 A2 设计为以较低功率 (40-60W) 运行并使用 PCIe Gen4 x8 插槽。 随着组织更好地了解他们对边缘基础设施的要求,结果将更有意义,边缘推理项目也更有可能成功。
总结
供应商正在竞相为边缘市场开发更小、更快、更坚固的服务器。 从零售到工厂再到医疗保健的组织都在呼吁更快地了解从源头收集的数据。 改进推理时间、减少延迟、提供提高性能的选项以及利用新兴技术将迅速区分赢家和输家。
边缘市场并没有停滞不前,因为组织正在寻找新的方法来利用从不断增加的物联网设备中收集的洞察力。 我们的团队认为,对于那些能够在各自行业中快速行动的人来说,这是一个重要的机会,可以在边缘利用 AI,其中包括这个边缘推理用例。
我们期待着名的 IT 基础架构参与者在明年针对这一特定用例提供创新的解决方案。 此外,也许更重要的是,我们希望看到软件方面的许多进步,以帮助在这些边缘用例中普及 GPU 的使用。 要使这项技术具有变革性,它必须比现在更容易部署。 鉴于我们看到的工作不仅来自 NVIDIA,还来自软件公司,例如 梵蒂克, 维索人工智能和许多其他人一样,我们乐观地认为更多的组织可以将这项技术付诸实践。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | Facebook | RSS订阅