主页 企业AI 在 QNAP NAS 上运行私有 RAG ChatGPT

在 QNAP NAS 上运行私有 RAG ChatGPT

by 乔丹拉努斯

QNAP NAS 平台拥有同类产品中最独特、最强大的硬件设计。因此,我们添加了 GPU 并测试了 AI 功能。

QNAP 以其硬件设计而闻名,并且在其硬件设计中融入了比同类产品更多的功能、扩展性和灵活性。最近,我们回顾了 TS-h1290FX,一个 12 NVMe NAS,配备 AMD EPYC 7302P CPU (16C/32T)、256GB DRAM、板载 25GbE 和大量 PCI 插槽。带着所有被压抑的力量和 机上应用程序,如果我们加入 GPU,看看在运行 AI 时我们能将这个 NAS 推到什么程度,就像私人 ChatGPT 一样,会发生什么?

QNAP TS-h1290FX 正面图片

AI 的 NAS 存储潜力

威联通 TS-h1290FX 可以为希望进军人工智能领域的企业提供很多帮助。 NAS 具有独特的优势,因为它可以支持内部 GPU,并具有海量存储空间的潜力。大型人工智能模型需要大量数据,必须有效存储和访问这些数据。这对于使用硬盘的存储平台来说可能是一个挑战,但支持 U.1290 NVMe 的 TS-h2FX 已经涵盖了一切。

当您想到大容量 NAS 时,首先想到的是支持最大 3.5TB 硬盘的 24 英寸 HDD 平台。这听起来很大,但与 QLC U.2 SSD 相比,这根本不算什么。 QNAP 最近增加了对 固体P5336 系列,每个驱动器容量高达令人难以置信的 61.44TB。对于 TS-h12FX 等 1290 盘位型号,在数据缩减开始之前,客户可以获得高达 737TB 的原始存储。对于紧凑型桌面占用空间 NAS,很少有系统可以与其竞争。

随着企业迅速采用人工智能,拥有一个可以为人工智能工作流程和运行模型提供存储容量的系统是一个巨大的优势。不过,令人印象深刻的壮举是,这款 QNAP NAS 可以运行这些 AI 工作流程,同时仍然处理在 SMB 或 SME 环境中共享存储的主要职责。

还应该说,人工智能并不是一个单一的东西。不同的人工智能项目需要不同类型的存储来支持。虽然我们在这里重点关注桌面设备,但 QNAP 还有许多其他 NAS 系统支持高速闪存和网络,这是支持比我们在此介绍的更雄心勃勃的 AI 需求的关键要素。

QNAP 如何支持 GPU?

QNAP 在许多 NAS 系统中支持 GPU。他们还有一些支持 GPU 的应用程序。在本文中,我们主要通过虚拟化站的视角来了解 GPU。 Virtualization Station 是 QNAP NAS 的管理程序,可让用户创建各种虚拟机。 Virtualization Station 还具有丰富的功能集,支持 VM 备份、快照、克隆,最重要的是,支持本文上下文中的 GPU 直通。

在我们的测试设备内,QNAP TS-h1290FX 配备了典型的服务器主板,具有多个可用的 PCIe 插槽用于扩展。 QNAP 还在机箱内提供了必要的 GPU 电源线,因此对于需要 PCIe 插槽以上电源的卡来说,不需要任何有趣的事情。我们发现单插槽 NVIDIA RTX A4000 完美契合,具有足够的冷却空间。在此平台中,首选具有主动冷却器的 GPU。您对 GPU 的选择将取决于工作负载以及 NAS 可以物理支持和冷却的内容。

配置 QNAP 的 AI

在 QNAP NAS 设备上设置具有 GPU 直通功能的虚拟机 (VM) 涉及多个步骤。需要 QNAP 支持虚拟化的NAS 并具备必要的硬件能力。以下是我们如何设置和配置具有 GPU 直通功能的 QNAP NAS 的指南。

1. 验证硬件兼容性

确保您的 QNAP NAS 支持 Virtualization Station,即 QNAP 的虚拟化应用程序。

  • 确认 NAS 具有可用于 GPU 的可用 PCIe 插槽,并且 GPU 支持直通。 QNAP 网站上通常提供兼容性列表。虽然当前的兼容性列表并未正式支持 NVIDIA A4000,但我们在功能上没有遇到任何问题。

2.安装GPU

  • 关闭 NAS 电源并断开其电源。打开机箱并将 GPU 插入可用的 PCIe 插槽中。将所有必要的电源线连接到 GPU。合上机箱,重新连接电源,然后打开 NAS。

3. 更新您的 QNAP 固件和软件

确保您的 QNAP NAS 正在运行最新版本的 QTS(QNAP 操作系统)。我们使用了 QNAP 公测版 Virtualization Station 4,为 GPU 工作提供更好的支持和性能。 Virtualization Station 4 是一个自安装软件包,与其他直接通过 QNAP App Center 安装的软件包不同。

4. 在虚拟机上安装操作系统

在 NAS 上安装 QNAP Virtualization Station 后,您可以进入管理界面来部署虚拟机 (VM)。当您单击“创建”时,将出现一个提示窗口,要求您提供虚拟机名称并选择虚拟机在 NAS 上运行的位置。在大多数情况下,您可能需要对操作系统和版本信息进行一些细微调整。

接下来,调整虚拟机在来宾操作系统级别看到的资源和 CPU 兼容性类型。在我们的示例中,我们为 VM 提供了 64GB 内存和 8 个 CPU。我们为该型号选择了直通CPU类型,并将BIOS更改为UEFI。

要引导和安装操作系统,您必须上传 ISO 文件并将其挂载为虚拟 CD/DVD 驱动器。安装过程完成后,启用 RDP 进行管理,然后再继续下一步。一旦启用 GPU 直通,QNAP 虚拟机管理功能就会发生变化,而 RDP 可以显着简化此过程。此时,关闭虚拟机。

5.配置GPU直通

在虚拟化站内:

  1. 关闭现有 VM 后,编辑您的 VM。
  2. 在虚拟机设置菜单中,查找物理设备选项卡。从此处选择 PCIe。您将看到可用于直通的设备。在我们的例子中,它是 NVIDIA RTX A4000。应用此更改。
  3. 如果您需要为虚拟机分配其他资源,例如 CPU 核心、RAM 和存储,现在就是这样做的时候了。
  4. 重新打开虚拟机。

6. 在虚拟机中安装GPU驱动

使用连接了 GPU 的 RDP 返回虚拟机后,为虚拟机中的 GPU 下载并安装适当的驱动程序。此步骤对于 GPU 正常运行并提供预期的性能改进至关重要。

7. 验证 GPU 直通功能

安装驱动程序后,验证 GPU 是否在虚拟机中被识别并正常运行。您可以使用Windows中的设备管理器或Linux中的相关命令行工具来查看GPU状态。

故障排除和提示

  • 兼容性: 检查 QNAP 和 GPU 制造商的网站,了解可能影响直通功能的任何特定兼容性说明或固件更新。
  • 性能: 监控虚拟机的性能并根据需要调整资源分配。确保您的 NAS 有足够的冷却空间,尤其是在添加高性能 GPU 后。
  • 网络和存储: 优化网络设置和存储配置,以避免可能影响虚拟机应用程序性能的瓶颈。

NVIDIA 与 RTX 聊天 – 私人聊天GPT

虽然很容易就到此为止(创建具有 GPU 访问权限的 Windows 虚拟机),但我们在此实验中进一步推进,为企业提供一种独特的方式来安全可靠地利用 AI,充分利用基于 NVMe 的 NAS 的性能。在我们的案例中,虚拟机利用了 RAID5 保护的存储,提供了 9.4GB/s 的读取性能和 2.1GB/s 的写入性能。

NVIDIA最近推出了一个名为 与 RTX 聊天。 Chat with RTX 通过将基于 GPT 的大语言模型 (LLM) 与本地独特的数据集集成来提供定制体验,从而彻底改变了 AI 交互。这包括处理文档、笔记、多媒体、YouTube 视频、播放列表等的能力。

该交钥匙应用程序利用检索增强生成 (RAG) 的强大功能,结合 TensorRT 优化的 LLM 的效率和 RTX 加速的高速功能。这些可提供快速且高度相关的上下文感知响应。此设置直接在 Windows RTX 桌面或工作站上运行,可确保快速访问信息以及高度的隐私和安全性,因为所有处理均在本地处理。

实施具有 RAG 功能的法学硕士为优先考虑隐私、安全和个性化效率的商业专业人士和高级用户提供了出色的解决方案。与 ChatGPT 等通过 Internet 处理查询的公共模型不同,本地 LLM 完全在 QNAP NAS 的范围内运行。

此离线功能可确保所有交互都保持私密且安全。这使得用户可以根据自己的特定需求定制人工智能的知识库,无论是机密的公司文档、专业数据库还是个人笔记。这种方法显着增强了人工智能响应的相关性和速度,使其成为那些需要即时、上下文感知洞察而又不损害隐私或数据安全的人的宝贵工具。

另外值得注意的是,这可能是显而易见的,在 NAS 中添加 GPU 直接简化了公司数据和 LLM 之间的链接。无需移动数据即可利用此特定模型,并且该过程就像将中端 GPU 放入 NAS 一样简单且经济高效。此外,目前所有这些软件都是免费的,这极大地促进了小型组织的人工智能潜力的民主化。

Chat with RTX 仍然是一个测试版程序,在撰写本文时,我们使用的是 0.2 版本。但安装它以及启动和运行 Web 界面的便捷性令人耳目一新。任何知道如何下载和安装应用程序的人现在只需点击几下即可获得运行 RAG 的本地法学硕士。

通过通用 URL 实现远程访问与 RTX 聊天

我们将我们的场景提升到了一个新的水平,并使其可供整个办公室使用。

第 1 步:找到配置文件

首先前往包含配置文件的文件夹:

  • 文件路径: C:\Users\{YourUserDir}\AppData\Local\NVIDIA\ChatWithRTX\RAG\trt-llm-rag-windows-main\ui\user_interface.py

第 2 步:更新启动代码

打开 user_interface.py 文件和 Ctrl-F interface.launch 找到正确的段,默认情况下将显示如下:

interface.launch(
    favicon_path=os.path.join(os.path.dirname(__file__), 'assets/nvidia_logo.png'),
    show_api=False,
    server_port=port
)

要启用网络访问,您必须添加 share=True 像这样:

interface.launch(
    favicon_path=os.path.join(os.path.dirname(__file__), 'assets/nvidia_logo.png'),
    show_api=False,
    share=True,
    server_port=port
)

将修改保存到 user_interface.py 文件。然后,通过“开始”菜单启动 Chat with RTX,这将启动命令提示符窗口并激活界面。

第 3 步:查找公共 URL

命令提示符窗口将显示本地 URL 和公共 URL。要制作可从任何设备访问的功能性公共 URL,请合并两个 URL 中的元素。最好采用公共 URL 并将本地 cookie 信息添加到其末尾:

  • 公共网址: https://62e1db9de99021560f.gradio.live
  • 带参数的本地 URL: http://127.0.0.1:16852?cookie=4a56dd55-72a1-49c1-a6de-453fc5dba8f3&__theme=dark

您的组合 URL 应如下所示,并将 ?cookie 附加到公共 URL:

https://62e1db9de99021560f.gradio.live?cookie=4a56dd55-72a1-49c1-a6de-453fc5dba8f3&__theme=dark

此 URL 允许从网络上的任何设备访问 Chat with RTX,从而将其可用性扩展到本地限制之外。

最后的思考

长期以来,我们一直拥护 QNAP 在 NAS 硬件设计方面的领先地位,但 QNAP 客户可以获得的价值远比他们想象的要多。说实话,虚拟化站是一个很好的起点,但为什么不将其提升到一个新的水平并尝试 GPU 直通呢?如果不出意外的话,组织可以向组织提供高端 GPU 驱动的虚拟机,而无需设置专用工作站。虚拟机位于具有本机性能水平的大型内部存储池旁边,还有明显的好处。在这种情况下,我们的共享存储性能接近 10GB/s,无需担心单个 100GbE 连接或交换机,这都是因为 GPU 加速的虚拟机位于 NAS 本身内部。

为什么不更进一步来认识人工智能给组织带来的好处呢?我们已经证明,为 QNAP NAS 添加合适的 GPU 相对简单且便宜。我们将 A4000 投入使用,市场价格约为 1050 美元,考虑到 Virtualization Station 是免费的并且 NVIDIA Chat with RTX 是免费的,这还不错。能够安全地将这个强大的法学硕士指向公司的私人数据应该提供可操作的见解,同时使公司更具活力。

这里要考虑的另一个方面是 QNAP 系统本身外部模型的文件存储。这对于需要快速存储工作数据的小型企业来说是理想的选择。凭借先进的网络功能,您可以使用 NAS 作为在更大的 GPU 服务器上保存 RAG 工作数据的位置,从而实现可轻松共享的数据存储并从中进行推断。

这只是人工智能的一个例子。该行业正在快速发展,因此将继续提供可用的工具。智能企业必须学会利用人工智能,而 QNAP 的这个简单功能是一个很好的入门方式。

QNAP 虚拟化工作站

参与 StorageReview

订阅电子邮件 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅