在不断发展的人工智能 (AI) 开发领域,云训练彻底改变了 AI 模型的创建、完善和部署方式。 云训练是一种使用远程云基础设施训练人工智能模型的方法,它具有许多优势,可推动人工智能开发进入可扩展性、效率和可访问性的新领域。
在不断发展的人工智能 (AI) 开发领域,云训练彻底改变了 AI 模型的创建、完善和部署方式。 云训练是一种使用远程云基础设施训练人工智能模型的方法,它具有许多优势,可推动人工智能开发进入可扩展性、效率和可访问性的新领域。
通过利用云计算的力量,组织和开发人员可以释放一系列优势,简化人工智能培训流程,并以以前无法实现的方式加速创新。 从轻松的可扩展性到专门的硬件利用,云训练使人工智能从业者能够敏捷地应对复杂的挑战,并充分利用其模型的潜力。
OVHcloud US 是谁?
尽管不是家喻户晓的名字,OVHcloud US(OVH Group 的美国子公司)提供裸机服务器、托管私有云和混合云解决方案。 他们的解决方案涵盖了从视频游戏专用服务器、为大型企业定制托管私有云服务以及介于两者之间的一切。 在本次评测中,我们将探讨他们的公共云计算服务,特别是由 NVIDIA Tesla V100S GPU 提供支持的 GPU 云。 这些 GPU 实例专为任何可从并行处理中受益的事物而设计,无论是基本的机器学习、生成式 AI 还是特定的 AI 模型训练。
我们今天要关注的关键问题之一是基于云的 GPU 处理相对于本地解决方案的优势。 两者当然都有争议,但 OVHcloud US 提供了一些转向云的令人信服的理由,即使这只是为了开始您的个人或企业人工智能之旅。
主要卖点无疑是价格。 具有 0.88 GB VRAM、100 个 vCore 和 32GB 内存的单个 Tesla V14S 的起价为 45 美元/小时,可以使用数千小时的周期,甚至接近本地解决方案的成本。 然后,通过基于云的实例来补充现有的内部 GPU 机器,以实现偶尔重新训练 AI 模型等任务,从而带来成本效益。
OVHcloud US GPU 产品分为以下几类:
名称 | 内存 | 核心 | GPU | 公共网络 | 私人网络 | 价格/小时 | |
t2-45 | 45 GB | 14 | 特斯拉 V100S 32 GB | 400 GB的SSD | 2 Gbps | 4 Gbps | $2.191 |
t2-90 | 90 GB | 28 | 2x Tesla V100S 32 GB | 800 GB的SSD | 4 Gbps | 4 Gbps | $4.38 |
t2-180 | 180 GB | 56 | 4x Tesla V100S 32 GB | 50 GB 固态硬盘 + 2 TB NVMe | 10 Gbps | 4 Gbps | $8.763 |
t2-le-45 | 45 GB | 14 | 特斯拉 V100S 32 GB | 300 GB的SSD | 2 Gbps | 4 Gbps | $0.88 |
t2-le-90* | 90 GB | 30 | 特斯拉 V100S 32 GB | 500 GB的SSD | 4 Gbps | 4 Gbps | $1.76 |
t2-le-180* | 180 GB | 60 | 特斯拉 V100S 32 GB | 500 GB的SSD | 10 Gbps | 4 Gbps | $3.53 |
*新发布
OVHcloud 美国 GPU 服务器硬件
让我们更深入地了解 OVHcloud US 提供的硬件选项。 GPU 实例的核心是 NVIDIA Tesla V100S,这是一款针对计算进行优化的 GPU,具有 32GB HBM2 内存。 虽然较新的 Tesla A100 主要取代了这些 GPU,但 V100S 仍然提供出色的性能和价值。
这些实例最重要的方面是它们基于云,因此它们不会占用您现场可能拥有的任何系统,这使它们成为“设置后就忘记它”工作流程的理想解决方案。 这些 GPU 通过 PCI 直通直接传送到实例,无需虚拟化层,从而为您的工作提供每张卡的专用使用。
在 CPU 方面,他们没有指定您将获得哪些特定 SKU,但他们保证所有内核至少为 2.2GHz,这对于大多数应用程序来说已经足够快了。 我们的特定实例报告有一个 Intel Xeon Gold 6226R,其 14 个线程中的 32 个可供我们使用。 vCore 数量范围为 14 至 56。
如果您的用例需要,OVHcloud US 确实提供具有更快 CPU 的不同选项。 内存选项范围从 45GB 到 180GB,对于大多数以 GPU 为中心的工作流程来说应该足够了。 同样的理念也适用于存储,容量从 300GB 到专用的 2TB NVMe 驱动器。
OVHcloud 美国 GPU 服务器 – 流行的 AI 使用案例
研发支持
启动和运行一个实例的速度足够快且足够便宜,以至于 OVHcloud 为即使是休闲开发人员也可以使用像样的 GPU 提供了令人信服的理由。 理论上,您可以在本地创建所有训练数据,将其加载到您选择的云数据提供商,启动实例,然后开始训练/微调在线提供的各种模型。
通过对该场景的严格测试,我们开发了多种成熟的 骆驼 利用 Alpaca 代码和 Huggingface 转换权重来调整口味。 这些口味可以在您的设备上无缝准备,方便地上传到 Google Drive,轻松下载到实例上,并进行专业微调。 现在,我们正在使用较低参数的模型来适应我们拥有的 32GB VRAM,与尝试购买 RTX8000 这样的类似卡并在家庭实验室中折腾相比,它仍然是一个更易于管理的选择。
小型企业可以使用此策略为开发人员或团队提供 GPU 计算访问权限,而不必等待硬件或重大预算批准。
推论
V100S 是一款出色的 GPU,适用于可装入其内存的 LLM 推理。 虽然推理时间与您使用 ChatGPT 等服务获得的时间不同,但权衡是运行您自己的私有模型的好处。 与往常一样,运行具有 24/7 正常运行时间的云服务会产生成本,但以当前每小时 0.88 美元的速度运行实例需要几个月的时间才能接近本地运行所需的基础设施。
图像识别
从图像中提取数据以对其进行分类、识别元素或构建更丰富的文档是许多行业的要求。 通过将 Caffe2 等框架与 Tesla V100S GPU 相结合,医疗成像、社交网络、公共保护和安全变得更加容易。
态势分析
在某些情况下,需要实时分析,以应对各种和不可预测的情况做出适当的反应。 例如,该技术用于自动驾驶汽车和互联网网络流量分析。 这就是深度学习出现的地方,形成通过训练独立学习的神经网络。
人际交往
过去,人们学会了与机器交流。 我们现在正处于一个机器正在学习与人交流的时代。 无论是通过语音还是通过声音和视频进行情感识别,TensorFlow 等工具都突破了这些交互的界限,开辟了许多新用途。
实践印象
一开始,OVHcloud US 门户非常直观,设置也很简单。 创建帐户,添加付款方式,创建一些 SSH 密钥,选择实例,获取红牛,然后通过 SSH 连接到新的 GPU 盒。 我们使用 Ubuntu Server,但其他选项也适用于 Linux 版本和风格,包括 Fedora、Arch、Debian CenOS、AlmaLinux 和 Rocky。
还可以选择安装各种操作系统映像,其中包括 Docker 等应用程序。
亲身体验 OVHcloud US GPU 服务器后,我们发现这种体验非常用户友好且响应迅速。 实例设置非常简单,并且访问 GPU 资源几乎是无缝的。 无论是测试复杂的机器学习模型,还是处理大规模数据处理任务,OVHcloud US的GPU实例都表现出了卓越的性能。
此外,扩展资源的灵活性使我们能够根据我们的特定需求定制环境。 从用户界面到底层硬件,一切的设计都是为了促进平稳高效的工作流程。 对各种流行人工智能框架的支持,再加上 NVIDIA Tesla V100S GPU 的强大功能,使我们的实验、模型训练和推理不仅成为可能,而且非常有效。
通过这些基于云的解决方案增强我们的内部资源的能力证实了 OVHcloud US 对于在人工智能领域迈出第一步的初学者和寻求可靠且经济高效的解决方案的经验丰富的专业人士来说都是一个有吸引力的选择。
我们运行了几个基准测试来测试 CPU 分配性能和 V100 实施。 首先是 Blender-CLI 基准测试,然后是我们最喜欢的 CPU 基准测试 y-cruncher。
GPU怪物 | 1112.95022 |
GPU 垃圾场 | 754.813874 |
GPU课堂 | 603.196188 |
CPU怪兽 | 113.467036 |
CPU垃圾场 | 62.223543 |
CPU课堂 | 50.618349 |
y 型破碎机 1b |
40.867秒
|
y 型破碎机 2.5b |
113.142秒
|
t2-45le 实例经过测试,提供了与其规格一致的结果,其性能指标没有出现任何意外。 搭载 V100 后,很明显它可以处理密集的推理任务,甚至在性能和费用方面都可以有效支持基于云的训练操作。
关闭的思考
与企业 IT 中的一切一样,有利有弊。 云训练人工智能也是如此。 使用 OVHcloud US GPU 服务器进行云训练可提供可扩展性、成本效益和加速开发,并打开创新和实验之门。 专业的硬件、全球可访问性和无缝协作使基于云的人工智能为突破性发现做好了准备。
这些优势与数据安全问题和网络稳定性的现实并存。 为了解决潜在的陡峭学习曲线,人工智能的云培训应谨慎对待,提醒组织制定符合其独特需求和优先事项的战略课程。
虽然我们只触及了特定的 GPU Server,但 OVHcloud US 拥有一套全面的服务。 总的来说,支持很友好,他们在我们初次注册后跟进,看看我们是否需要帮助。 该门户直观、易于使用和理解,并且系统的运行完全符合预期。 唯一的缺点可能是缺乏区域,但由于成本和简单性,这一点很容易被忽视。 OVHcloud US 得到了可靠的推荐,并将作为未来项目的潜在云提供商,为需要在实验室之外或只需租用一点额外的能力来完成工作的项目提供支持。
当我们应对这一动态格局时,必须以平衡的视角对待人工智能云培训,拥抱机遇,同时务实应对挑战。 以独创性和实用性为标志的人工智能卓越之旅是通过理解这些利弊之间错综复杂的相互作用以及制定利用前者同时减轻后者的策略而形成的。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅