主页 企业AI 边缘科学研究——大容量存储实现人工智能加速洞察

边缘科学研究——大容量存储实现人工智能加速洞察

by 乔丹拉努斯

Solidigm P5336 SSD 通过支持边缘人工智能和机器学习算法的数据密集型需求,开启了新的研究前沿。

在科学研究快速推进到技术能力边缘的时代,大容量存储的意义日益凸显。配备强大的深空物体捕获装置、一组 Solidigm P5336 61.44TB QLC SSD 以及我们最喜欢的坚固耐用的 Dell PowerEdge XR7620 服务器,我们探索了对强大、经济高效的存储的需求,以管理快速爆炸的数据需求基于边缘的人工智能加速科学研究。

边缘数据采集

近年来,科学和数据计算经历了巨大的转变,从传统的集中式计算模型过渡到更加动态的边缘计算领域。这种转变不仅仅是计算偏好的变化,也是对现代数据处理探索不断变化的需求和复杂性的回应。

从本质上讲,边缘计算是指在数据生成位置附近处理数据,而不是依赖集中式数据处理仓库。这种转变在实时数据处理和决策至关重要的领域越来越重要。边缘计算在科学研究中非常引人注目,尤其是在需要快速数据收集和分析的学科中。

推动边缘计算的因素

有几个因素推动了科学研究向边缘计算的发展。首先,现代科学实验产生的数据量惊人。传统的数据处理方法涉及将大量数据集传输到中央服务器进行分析,变得不切实际且耗时。

其次,对实时分析的需求比以往任何时候都更加明显。在许多研究场景中,传输数据进行处理所需的时间可能会导致数据过时,因此即时现场分析至关重要。

最后,更复杂的数据收集技术需要开发同样复杂的数据处理能力。边缘计算通过让强大的计算能力更接近数据源来满足这一需求,从而提高科学研究的效率和效果。

科学研究是本文的边缘计算重点,它特别感兴趣的是尽可能多地保留现代复杂传感器收集的原始数据。使用边缘的 NVIDIA L4 等加速器实时监控和分析捕获的数据并提供摘要。尽管如此,捕获和保存所有数据以供未来进行更深入的分析是无可替代的。这就是超密集的地方 Solidigm QLC 固态硬盘 进来。

在setUp

天文摄影是捕捉天体和大片夜空图像的实践,是从边缘计算中受益匪浅的领域的一个典型例子。传统上,天文摄影是一门需要耐心的学科,需要较长的曝光时间和对图像进行大量的后处理才能提取有意义的数据。过去我们看过 使用 NUC 集群加速这一过程。 现在,是时候将其提升到一个新的水平了。

边缘服务器

我们使用了坚固耐用的 戴尔 PowerEdge XR7620 作为边缘的核心服务器平台。这些优化的服务器是短深度、双插槽、紧凑的外形,并提供以加速为重点的解决方案。与典型的边缘服务器不同,XR7620 服务器可满足 AI/ML 快速成熟的需求,支持最苛刻的工作负载,包括工业自动化、视频、销售点分析、AI 推理和边缘点设备聚合。

戴尔 PowerEdge XR7620 主要规格

有关规格的完整列表,请在此处查看我们的完整评论: 戴尔 PowerEdge XR7620.

专栏 技术规格
处理器 两个第四代 Intel® Xeon® 可扩展处理器,每个处理器最多 4 个内核
内存 16 个 DDR5 DIMM 插槽,最大支持 RDIMM 1 TB,速度高达 4800 MT/s。仅支持已注册的 ECC DDR5 DIMM
驱动器托架 前托架:最多 4 个 2.5 英寸 SAS/SATA/NVMe SSD 驱动器,最大 61.44 TB,最多 8 个 E3.S NVMe 直接驱动器,最大 51.2 TB

这款 Dell PowerEdge 服务器不仅仅是一项技术。它的设计能够承受野外最恶劣的条件。想象一下零度以下的气温、呼啸的狂风,以及让“偏远”这个词显得轻描淡写的隔离。但尽管困难重重,事实证明它是有能力且不屈不挠的,以其最先进的处理器的力量和强大的数据分析能力为研究提供了动力。

拥有坚固耐用的服务器可以消除保持服务器安全和温暖的压力。这不仅仅是舞台表演;同样重要的是,服务器能够承受从安全位置到偏僻寒冷偏僻地点的令人牙齿嘎嘎作响的驱动。

望远镜

在这次测试中,我们选择了五大湖沿岸的一个地点,位于偏远荒野的中心地带,远离城市灯光的侵入。我们天文摄影设备的核心是星特朗 Nexstar 11 英寸望远镜。该望远镜具有 F/1.9 光圈和 540 毫米焦距,非常适合低光条件下的天文摄影,为深空探索提供非凡的细节。在荒野的深邃寂静中,这台望远镜就像一个哨兵,它的镜头对准天空,准备捕捉天体奇观。

一键相机

Nexstar 附带 ZWO ASI6200MC Pro 一次性彩色相机。该相机专为天文摄影而设计,可以渲染高分辨率、色彩丰富的天体图像。选择一次性彩色相机可简化成像过程,在一次曝光中捕获全彩图像,无需额外的滤镜。此功能在偏远荒野中非常宝贵,因为简单性和效率至关重要。

规格 Detail
传感器 索尼IMX455 CMOS
尺寸 全帧
分辨率 62兆像素9576×6388
像素大小 3.76μm
拜耳模式 通用数据保护条例
DDR3 缓冲器 256MB
接口 USB3.0 / USB2.0

ZWO ASI6200MC Pro 是一款专门设计的天文摄影相机,配备 SONY IMX455 CMOS 传感器,在全画幅传感器上提供令人印象深刻的 62 兆像素分辨率。它拥有 3.76μm 的像素尺寸,可在全分辨率下以 3.51FPS 的最大帧速率进行详细而广阔的天体捕捉。

该相机具有集成冷却系统(可调节的两级热电冷却器),可将温度保持在低于环境水平 30°C-35°C 的范围内,从而降低传感器的温度,从而确保最佳性能,同时减少电子噪声以获得更精确的图像。该相机具有卷帘快门、宽曝光范围和大容量 256MB DDR3 缓冲区等功能,旨在为业余和专业天文学家提供卓越品质的图像。

如今,借助 Starlink,在偏远荒野中维持可靠的数据连接不再那么具有挑战性。这种基于卫星的互联网服务提供高速数据连接,对于传输数据和接收实时更新至关重要,但在将大量数据集发送回实验室时存在相当大的带宽限制。

大容量存储

保留天文摄影中的每个子框架对于研究人员来说至关重要,因为它释放了推进天文学知识所必需的大量信息。每个子帧都可以捕获天体现象的增量变化和细微差别,这对于详细分析和理解至关重要。这种做法通过降噪提高图像质量,并通过提供验证冗余以及帮助纠错和校准来确保数据可靠性。

规格 固力D5-P5336 7.68TB
容量 7.68TB
顺序读/写 高达 6.8GB/秒读取/1.8GB/秒写入
随机 4K 读取/16K 写入 IOPS 高达 770k IOPS 读取/17.9k IOPS 写入
每天驱动器写入数 (DWPD) 0.42 DWPD,16K R/W
保修政策 5年

此外,我们还使用 61.44TB Solidigm D5-P5336 驱动器

规格 固力D5-P5336 61.44TB
容量 61.44TB
顺序读/写 高达 7GB/秒读取/3GB/秒写入
随机 4K 读取/16K 写入 IOPS 高达 1M IOPS 读取/42.6k IOPS 写入
每天驱动器写入数 (DWPD) 0.58 DWPD,16K R/W
保修政策 5年

我们的主要兴趣是拥有一个全面的数据集,能够应用机器学习和人工智能等先进计算技术,以发现手动分析或传统方法中可能遗漏的模式和见解。保留这些子框架还可以使研究面向未来,允许使用不断发展的技术进行再处理。它也是长期研究和协作努力的历史记录,使其成为宝贵的资源。

StorageReview 的创新方法

我们已经突破了边缘计算及其重要性的极限,而不仅仅是针对工业和零售用例等典型市场。将我们的工具包带到偏远地区并记录天文摄影图像捕获和编辑的所有阶段,有助于我们了解人工智能如何在生活的许多不同方面使我们受益。您可能还记得我们的 极限边缘评论 从去年开始,我们在沙漠中搭建了设备来捕捉夜空,而不必担心人造光影响我们的图像。

为了突破天文摄影的界限,特别是在大容量存储和计算效率至关重要的边缘,一种新颖的图像反卷积方法正在彻底改变我们以前所未有的清晰度捕捉宇宙的能力。为了实现这一目标,我们引入了突破性的卷积神经网络 (CNN) 架构,该架构显着减少了传统上与图像反卷积过程相关的伪影。

天文摄影的核心挑战在于克服大气干扰、安装和引导误差以及观测设备的限制带来的失真。自适应光学已经缓解了这些问题,但其高昂的成本和复杂性让许多天文台陷入困境。图像反卷积是估计和反转点扩散函数 (PSF) 的影响以澄清图像的过程,是天文学家的重要工具。然而,Richardson-Lucy 和统计反卷积等传统算法经常会引入额外的伪影,从而降低图像的保真度。

输入与 Vikramaditya R. Chandra 合作提出的创新解决方案:专门为天文图像恢复而设计的定制 CNN 架构。该架构不仅以极高的精度估计 PSF,而且还应用了通过深度学习技术增强的 Richardson-Lucy 反卷积算法,以最大限度地减少伪影的引入。我们的研究通过使用我们捕获的图像和哈勃遗产档案中的图像训练该模型,证明了优于现有方法的性能,为获得无伪影天文图像提供了一条清晰的道路。

该架构的核心是双阶段方法:最初,卷积神经网络估计 PSF,然后在修改后的 Richardson-Lucy 算法中使用它来对图像进行反卷积。第二阶段采用另一个深度 CNN,经过训练可以识别和消除残留伪影,确保输出图像尽可能真实地反映原始天文物体。这是在不使用高斯模糊等过度简化技术的情况下实现的,高斯模糊也会带来不必要的效果,例如“振铃”。

该模型的重要性超出了其在天文摄影中的直接应用。对于处理能力和存储容量至关重要的边缘计算,这种新颖的 CNN 架构的效率和有效性有望开启高保真成像的新时代。在边缘处理和存储大量光学数据的能力为研究开辟了新的可能性,允许在整个行业的观测活动中进行实时分析和决策。

哈勃旧图像、人工模糊(左)与 CNN 处理(右)

我们实验室所采用的反卷积技术的进步标志着所有类型成像的关键时刻。通过创新地利用深度学习,我们即将释放数字图像的额外潜力,这里通过以以前仅为最高端配置保留的清晰度和精度捕捉宇宙来证明。我们已经在实验室训练这个模型相当长一段时间了,所以请尽快关注完整的报告。

这对天文摄影意味着什么

用于天文图像恢复的新型卷积神经网络(CNN)架构相对于传统反卷积技术的进步标志着天文摄影的关键发展。与经常引入噪声和重影图像等伪影的传统方法不同,CNN 方法最大限度地减少了这些问题,确保了更清晰、更准确的天体图像。

该技术增强了图像清晰度,并允许从天文观测中提取更精确的数据。通过利用深度学习,我们显着提高了天文摄影的保真度,为更深入地了解宇宙铺平了道路,同时在图像处理方面做出了最小的妥协。

基于边缘的人工智能加速科学研究中的两个推理用例

数据处理和处理方法在科学研究中发挥着关键作用,特别是在需要大量数据捕获和分析的领域,例如天文摄影。我们决定研究两个常见的推理用例,利用戴尔提供的高容量 Solidigm 存储解决方案和先进的计算基础设施来管理和解释在边缘生成的大量数据集。

案例一:运动鞋网法

Sneaker Net 方法是一种历史悠久的数据传输方法,涉及在大容量存储设备上本地捕获数据,然后将这些存储介质物理传输到中央数据中心或处理设施。这种方法让人想起早期的计算,当时由于缺乏网络连接或网络连接速度较慢,需要手动移动数据。在基于边缘的人工智能加速科学研究中,这种方法在实时数据传输因带宽限制或不可靠的互联网连接而受到阻碍的情况下非常有用。

Sneaker Net 方法的主要优点在于其简单性和可靠性。高容量 SSD 可以存储大量数据,确保在没有持续互联网连接的情况下也能安全传输大型数据集。这种方法在天文摄影经常发生的偏远或具有挑战性的环境中特别有利,例如远离传统互联网服务的偏远荒野地区。

然而,Sneaker Net 方法也有很大的局限性。最明显的是数据处理和分析的延迟,因为物理运输需要时间,阻碍了从数据中得出潜在的见解。运输过程中数据丢失或损坏的风险也会增加。此外,这种方法没有利用边缘计算可以提供的实时分析和决策的潜力,可能会错过及时的见解和干预。

案例 2:边缘推理

边缘推理代表了科学研究中更现代的数据处理方法,特别适合人工智能加速项目的需求。此过程涉及捕获现场数据并利用配备 NVIDIA L4 的边缘服务器来执行首次推理。该方法允许在生成数据时立即对其进行分析,从而能够根据初步结果进行实时决策并快速调整数据捕获策略。

边缘服务器设计用于在现场研究中经常遇到的挑战性条件下运行,在数据源处提供人工智能和机器学习算法所需的计算能力。此功能对于需要立即数据分析的任务至关重要,例如在天文摄影过程中捕获的大量数据集中识别特定的天文现象。

边缘推理的优点是多方面的。它显着减少了数据处理的延迟,允许即时洞察和调整。这种实时分析可以提高捕获数据的质量和相关性,使研究工作更加高效和有效。边缘推理还减少了数据传输的需求,节省了基本通信的带宽。

然而,边缘推理也带来了挑战。边缘计算基础设施的初始设置和维护可能非常复杂且成本高昂,需要在硬件和软件方面进行大量投资。还需要专业知识来有效管理和操作边缘计算系统。

此外,虽然边缘推理减少了数据传输需求,但它仍然需要一种长期数据存储和进一步分析的方法,需要采用本地处理与中央数据分析相结合的混合方法。由于计算、存储和 GPU 技术的改进,这些挑战已不再是问题。

Sneaker Net 方法和边缘推理都为管理基于边缘的人工智能加速科学研究中生成的大量数据集提供了有价值的方法。这些方法之间的选择取决于研究项目的具体要求,包括实时分析的需要、现场计算资源的可用性以及数据传输的后勤考虑。随着技术的进步,针对这些挑战的创新解决方案的潜力有望进一步提高边缘科学研究的效率和有效性。

极端环境条件

我们不断致力于突破技术界限并了解其局限性,因此我们开始了对 Dell PowerEdge XR7620 服务器和 Solidigm QLC SSD 的独特测试之旅。值得注意的是,不建议冒险超出任何技术的指定操作参数,否则可能会导致保修失效,或者更糟糕的是,导致设备故障。然而,出于科学好奇心并真正掌握我们设备的坚固性,我们谨慎行事。

我们对该项目的测试是在严酷的冬季进行的,在无情的暴风雪中气温骤降至 -15°C 及以下。这些条件远远超出了大多数电子设备的正常操作环境,尤其是为数据密集型任务设计的复杂服务器硬件和 SSD。目标是评估服务器和存储在面临此类天气条件的极端寒冷和潮湿时的性能和可靠性。

值得注意的是,服务器和 SSD 的运行都没有出现任何问题。其操作没有受到任何不利影响,没有数据损坏,也没有硬件故障。在此类测试条件下的卓越性能充分说明了这些设备的构建质量和弹性。戴尔PowerEdge XR7620采用坚固耐用的设计,而Solidigm SSD则采用​​先进技术,事实证明它们能够承受远远超出数据中心舒适范围的环境压力。

虽然展示了设备的耐用性和可靠性,但此测试不应被视为对在建议规格之外操作硬件的认可。这是一项受控实验,旨在探索这些设备处理能力的极限。我们的研究结果重申了为关键应用选择高质量、耐用的硬件的重要性,特别是在条件可能不可预测且远非理想的边缘计算场景中。

关闭的思考

自从 QLC NAND 以有意义的方式进入市场以来,我们就一直对高容量企业级 SSD 着迷。大多数工作负载并不像业界认为的那样是写入密集型的;对于边缘数据收集来说更是如此。边缘数据收集和推理用例面临着一系列完全不同的挑战。

就像我们在这里阐述的天文摄影用例一样,与数据中心中的情况相比,它们通常在某种程度上受到限制。与我们的研究和边缘人工智能工作一样,戴尔服务器只有四个托架,因此需要最大限度地利用这些托架来捕获我们的数据至关重要。与我们研究过的其他边缘用途类似,例如 自动驾驶,不间断地捕获更多数据的能力至关重要。

我们对大容量企业级 SSD(尤其是 QLC NAND 技术)独特应用的探索得出的结论,强调了我们在边缘收集和处理数据的方式发生了关键转变。我们在测试中使用的 SSD 因其容量和性能指标而显得特别有趣,为之前受存储能力限制的新研究提供了可能性。

我们通过天文摄影项目封装的边缘数据收集和推理用例的复杂性,揭示了对数据中心之外的存储需求的细致入微的理解。在这样的项目中,捕获的每个字节的数据(宇宙的一个片段)都具有价值。由于天气和时间的限制,宽敞的存储阵列和机架上的齿轮架并不总是可用。

这种情况并非天文摄影所独有,而是在各种边缘计算应用和研究学科中都有体现。在这里,动态捕获和分析大量数据至关重要。对于许多行业来说,中断数据卸载是一种奢侈,既无法承受,也不合理。 SSD 凭借其强大的存储容量解决了这一难题。它们允许延长数据收集时间,而无需频繁停下来卸载数据,从而确保研究过程的连续性和完整性。

这些大容量 SSD 通过直接在边缘支持人工智能和机器学习算法的数据密集型要求,开辟了新的研究前沿。此功能对于实时数据处理和推理至关重要,可以根据收集的数据立即获得见解并采取行动。无论是根据初步分析细化数据捕获参数,还是应用复杂算法过滤天体噪声以实现天文发现,这些 SSD 的作用都不容小觑。

Solidigm SSD 不仅仅是存储解决方案,而且是创新的推动者。它们代表着解决边缘计算独特挑战的飞跃,促进了突破可能界限的研究工作。随着我们通过基于边缘的人工智能加速科学研究不断探索浩瀚的空间和错综复杂的世界,强大、高效和大容量的存储解决方案的重要性只会越来越大。这些技术不仅支持当前的研究需求;他们预测未来,为未来的发现奠定基础。

固体人工智能

本报告由 Solidigm 赞助。 本报告中表达的所有观点和意见均基于我们对所考虑产品的公正看法。

参与 StorageReview

电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅