我们重新审视 Jetson AGX Orin,并展示如何在低功耗设备上获取 Chat-GPT 类型 LLM。
编者注:我们有机会与团队的新成员一起坐下来重新深入研究 NVIDIA Jetson 平台。 查看我们去年的文章,我们在 Jetson 的最终产品版本联想 SE70 上运行了一个视觉模型
借助 NVIDIA 的 Jetson 平台,开发人员能够探索专为边缘 AI 开发量身定制的 AI 选项。这些系统可在一手可握的封装中实现支持 GPU 的服务器性能。非常感谢 NVIDIA 为我们提供 Jetson AGX Orin 开发套件,让我们试用并了解拥有自己的本地 LLM 是多么容易。
Jetson AGX Orin DevKit 采用小尺寸设计,宽度和长度仅为 11 厘米(约 4.3 英寸),高度为 7.2 厘米(约 2.8 英寸)。Jetson AGX Orin Dev Kit 内部有一个 2048 核 NVIDIA Ampere 架构 GPU,具有 64 个 Tensor 核心,最高频率为 1.3GHz。此外还有一个 Arm Cortex CPU 12 核 A78AE v8.2 64 位 CPU,具有 3MB L2 缓存、6MB L3 缓存,最高频率为 2.20GHz。
这两个强大的组件,加上 64GB 的 LPDDR5 统一内存(速度为 204.8GB/s),共同创造了这台小型机器最令人印象深刻的壮举:小型 GPU 和 DLA 的 275GB 型号的 TOPS 为 64 TOPS。这是 NVIDIA 前代产品 Jetson AGX Xavier 的 TOPS 数量的 8.6 倍,后者仅提供 32 TOPS。
机盖下还有两个 M.2 插槽:一个 PCIe Gen 4×4 Key M,用于 64GB eMMC 以外的任何额外存储,以及一个 Gen 4×1 Key E,用于无线连接。不过,有了 10 千兆 RJ45 连接器,在线连接就不是问题了。此外,还有一个 40 针接头(用于 UART、SPI、I2S、I2C、CAN、PWM、DMIC 和 GPIO)、一个 12 针自动化接头、一个 10 针音频面板接头、一个 10 针 JTAG 接头、一个 4 针风扇接头、一个 2 针 RTC 电池备用连接器,以及用于 CSI 摄像头的 16 通道 MIPI CSI-2 连接器。
外部连接也不缺。有六个 USB 端口:两个 USB-A 3.2 Gen 2、两个 USB-A 3.2 Gen 1 和 USB-C 3.2 Gen 2 端口。在这两个 USB-C 端口中,一个可以为闪存和数据传输提供高达 20 Gbps 的速度,另一个专用于 60W 电源。如果您需要额外的 USB-C 端口,则可以通过 DC 电源插孔连接额外的电源。但是,系统仅随附 USB-C 电源。还有一个微型 SD 卡插槽用于快速存储选项,以及一个微型 USB-B 端口用作串行调试端口。
外部 PCIe Gen 4×16 插槽隐藏在磁性盖板下方。此外,外部 PCIe 插槽最多支持 PCIe 4×8 连接。由于无法为 GPU 内部供电,该插槽最适合用于高速 NIC 之类的设备。对于专用显示选项,Orin 具有 DisplayPort 1.4。
Jetson AGX Xavier 与 Jetson AGX Orin
专栏 | 杰特森 AGX 泽维尔 64GB | Jetson AGX Orin 64GB 开发套件 |
---|---|---|
人工智能性能 | 32 TOPS | 275 TOPS |
GPU | 512 核 NVIDIA Volta GPU,具有 64 个张量核心 | 2048 核 NVIDIA Ampere GPU,配备 64 个 Tensor 核心 |
GPU 最大频率 | 未指定 | 1.3GHz |
中央处理器 | 8 核 NVIDIA Carmel Arm v8.2 64 位 CPU,8MB L2 + 4MB L3 | 12 核 Arm Cortex-A78AE v8.2 64 位 CPU,3MB L2 + 6MB L3 |
CPU 最大频率 | 2.2GHz | 2.2GHz |
深度学习加速器 | 2 个 NVDLA v1 | 未指定 |
DLA 最大频率 | 1.4GHz | 未指定 |
视觉加速器 | 2x 聚乙烯醇 | 1x 聚乙烯醇 v2 |
内存 | 64GB LPDDR4x,136.5GB/秒 | 64GB LPDDR5,204.8GB/秒 |
32GB eMMC 5.1,64GB 工业版可用 | 未指定 | |
视频编码 | 4x 4K60(H.265)、8x 4K30(H.265)、16x 1080p60(H.265)、32x 1080p30(H.265) | 未指定 |
视频解码 | 2x 8K30(H.265)、6x 4K60(H.265)、12x 4K30(H.265)、26x 1080p60(H.265)、52x 1080p30(H.265) | 未指定 |
CSI摄像机 | 最多 6 个摄像头(通过虚拟通道为 36 个)、16 通道 MIPI CSI-2、8 通道 SLVS-EC、D-PHY 1.2(最高 40 Gbps)、C-PHY 1.1(最高 62 Gbps) | 未指定 |
PCIe | 1×8、1×4、1×2、2×1(PCIe Gen4、根端口和端点) | x16 PCIe 插槽支持 x8 PCIe Gen4、M.2 Key M 插槽支持 x4 PCIe Gen4、M.2 Key E 插槽支持 x1 PCIe Gen4 |
USB | 3 个 USB 3.2 Gen2(10 Gbps)、4 个 USB 2.0 | USB-C 用于供电 (15-60W)、单个 USB-C 用于闪存和编程、Micro B 用于串行调试、2x USB 3.2 Gen2 (USB Type-C)、2x USB 3.2 Gen2 (USB Type-A)、2x USB 3.2 Gen1 (USB Type-A)、USB 2.0 (USB Micro-B) |
网络 | 1x 千兆以太网 | 高达 45 GbE 的 RJ10 连接器 |
屏 显: | 3 多模 DP 1.4/eDP 1.4/HDMI 2.0 | 1 个 DisplayPort 1.4a (+MST) 连接器 |
其他I / O | 5x UART、3x SPI、4x I2S、8x I2C、2x CAN、PWM、DMIC、GPIO | 40 针接头(UART、SPI、I2S、I2C、CAN、PWM、DMIC、GPIO)、12 针自动化接头、10 针音频面板接头、10 针 JTAG 接头、4 针风扇接头、2 针 RTC 电池备用连接器、microSD 插槽、直流电源插孔、电源、强制恢复和重置按钮 |
电力 | 10 30W | 15-60W(通过 USB-C) |
AI 端/NVIDIA SDK 设置
大型语言模型 (LLM) 是经过大量数据训练的 AI,例如 ChatGPT 或 Ollama。在如此小的占用空间中,很难相信您能够运行本地私有 AI 模型。目前,我们看到英特尔、AMD 和骁龙推出的配备专用 NPU 的“AI PC”笔记本电脑出现在市场上。这些设备与 Jetson 平台类似,在芯片上运行专用硅片,具有额外的 AI 加速功能。从概念上讲,这些组件的功能类似于我们的大脑(因此 NPU 中带有“神经”),并允许同时处理大量数据。加入 NPU 意味着 CPU 和 GPU 可以释放出来处理其他任务,从而使计算机在功率和处理方面都更加高效。
然而,英特尔 Lunar Lake 产生的 40 TOPS 或 AMD 的 50 TOPS 平台仍然不如 Jetson Orin Devkits 的 GPU 和 CPU 的总功率那么大,后者宣传的功率为 275 TOPS。这足以在您的办公室甚至您的家中/家庭实验室中拥有一个本地 AI!协助 AI 的其他组件是两个 NVDLA v2 深度学习 (DL) 加速器,可提高系统执行 AI 处理的速度;以及一个 Vision 加速器,可加快计算机视觉处理图像的速度。
NVIDIA 的众多指南简化了设置系统以运行 AI 的过程。首先,您必须确保使用 Ubuntu 刷新 Jetson,然后按照以下 6 个步骤操作:
步骤 1:安装 NVIDIA SDK 管理器
完整说明和下载将在 NVIDIA SDK 网站上提供。此过程需要一个免费的开发者帐户。
第 2 步:打开安装在 Ubuntu 上的 NVIDIA SDK 管理器
步骤3:开发环境
此步骤是为了确认您已做好一切准备。确认您的产品、系统配置、SDK 版本和其他 SDK。对于我们的设置,我们使用了 Jetson AGX Orin 开发套件、Ubuntu 22.04、JetPack 6.0 和 Deep Stream 7.0。
步骤 4:详细信息和许可
此步骤用作安装屏幕,确保所有主机组件和目标组件都已下载并安装。这也是选择正确下载位置的地方。主机系统需要 15GB 的存储空间,目标系统需要 17GB 的存储空间。
第 5 步:设置过程
此步骤用作完成设置的确认窗口。在这里,您将选择恢复模式,选择是手动还是自动强制恢复模式,自动适用于您已经刷新并运行系统的情况。从这里,您可以设置/确认您的 IP 地址、添加用户名和密码、选择您的 OEM 配置和目标存储设备。设置完所有这些后,您就可以单击 Flash 选项。
第 6 步:总结定稿
最后,此步骤将运行系统。此后,您将能够运行代码:
jetson-containers run --name ollama $(autotag ollama)
运行第一行代码将启动 奥拉马 LLM。Ollama 是一个流行的平台,它使 LLM 的本地设置和开发变得简单而轻松,甚至可以在容器内部或外部进行设置。它包含一个内置的预量化权重模型库,并将在后台使用 llama.cpp 自动下载并运行作为推理。Ollama 容器是在 CUDA 支持下编译的,非常适合在 Jetson AGX Orin 上使用。然后通过运行代码:
docker run -it --rm --network=host --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main
然后,您将能够通过端口 8080 上的设备 IP 或 DNS 地址访问开放 Web 用户界面 (OWUI),它将充当聊天机器人。OWUI 用作 Ollama 服务器 API 的插件,但也可以使用 OpenAI 的 ChatGPT、Meta 的 Llama-3 或 Microsoft 的 Phi-3 Mini 作为插件。
虽然在如此低的功率预算下,较大模型的首次令牌时间明显较慢,但平台在加载后仍然能够提供可接受的性能。
结论
Jetson AGX Orin 开发套件在紧凑的外形中提供了卓越的性能。随着 AI PC 解决方案变得越来越重要,Jetson 平台脱颖而出,尤其是考虑到集成到新 CPU 版本中的 NPU 的 TOPS 限制。Jetson AGX Orin 为开发人员(尤其是那些需要 ARM 原生应用程序的开发人员)提供了强大的垫脚石,有助于模型验证和改进。
虽然这是一款开发套件,但其易用性和强大功能使其成为企业踏上 AI 之旅的绝佳起点。Jetson 平台展示了小型 AI 解决方案的巨大潜力——设计精美、极其节能,并且能够提供 275 TOPS 的 AI 性能。这些组合使 Jetson 平台可与更大的机架式 AI 服务器相媲美。
NVIDIA 的综合指南简化了刷写和部署各种 AI 模型的过程,而生成式 AI 只是其中的一部分。对于准备开发和部署 AI 的企业来说,Jetson AGX Orin 开发套件完美融合了能效、小巧的体积和出色的 AI 性能,是探索和实施 AI 技术的理想选择。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅