存储评论网

Comino Grando RTX PRO 6000 评测:768GB 显存,4U 液冷机箱

企业版  ◇  服务器

Comino 最近寄给我们最新版本的 Comino Grando 进行评测,该机配置了八张 NVIDIA RTX PRO 6000 Blackwell 显卡,每张显卡配备 96GB 显存,总共拥有 768GB 的​​ GPU 内存。 我们审查了 Comino 将于 2024 年回归,配置 6 块 RTX 4090 显卡。提供 144GB 的总 GPU 内存,以及一个版本 NVIDIA H100 的此次最新更新标志着原始内存容量和平台可处理的工作负载范围都实现了巨大的代际飞跃。 

Comino Grando RTX PRO 6000 全前面板和 GPU I/O

Grando 是一款专为解决高密度 GPU 计算与散热管理之间的关键冲突而设计的 4U 平台。传统的风冷机箱在现代专业显卡持续 600W 以上的 TDP 功耗下不堪重负,而 Grando 则采用了截然不同的方法,从零开始构建液冷架构,能够散发高达 6.5kW 的持续热量。这并非改造或事后补救;从倒置的主板布局到颜色编码的快速断开式歧管系统,整个机箱的设计都围绕着冷却回路展开。

最终打造出的平台能够在单个 4U 机箱内支持八颗全 TDP 专业级 GPU,在 3-38°C 的环境温度下 24/7 全天候运行,不会出现过热降频、高转速风冷带来的噪音,且维护性丝毫不受影响。对于大规模部署 AI 推理、机器学习训练或高性能仿真工作负载的企业而言,Grando 提供了一项真正难得的优势:它是一款无需在密度、散热和可靠性之间做出取舍的服务器。

科米诺格兰多规格

下表显示了 Comino Grando 平台的物理规格和支持的硬件配置。

规格/特点 科米诺格兰多
Comino Grando 服务器和机架式工作站
制冷量 6.5kW(最大功率 6500W,进气温度 20°C)
主板 最高可达EATX和EBB
GPU(服务器) 最多 8 个;
NVIDIA:RTX A6000、RTX 6000 ADA、RTX PRO 6000、A40、L40、L40S、A100、H100、H200
GPU(机架式工作站) 最多 6 个;
NVIDIA:3090、4090、5080、5090、RTX A6000、RTX 6000 ADA、RTX PRO 6000、A40、L40、L40S、A100、H100、H200;
AMD:W7800、W7900
CPU的 最多 2 个;
单路处理器:Intel Xeon W-2400/2500 和 3400/3500,Intel Xeon 可扩展处理器(第四代、第五代、第六代),AMD Threadripper PRO 5000WX、7000WX、9000WX,AMD EPYC 9004/9005
双路处理器:英特尔® 至强® 可扩展处理器第四代、第五代、至强® 6、AMD EPYC 9004/9005
内存 截至2TB
M2驱动器 最高 8 倍 NVMe
存放 背板热插拔笼:最多可安装 4 个热插拔 SSD(4 个 7 毫米或 2 个 15 毫米),并且最多可安装 4 个额外的 SSD(4 个 7 毫米或 2 个 15 毫米)来代替第 4 个电源;
内部 3.5 英寸笼最多可容纳 4 个 3.5 英寸或 4 个 2.5 英寸 15 毫米或 12 个 2.5 英寸 7 毫米;
内置 2.5 英寸插槽:最多可安装 4 个 2.5 英寸 7 毫米 SSD。
电源及工作电压 最多可支持 4 个 2000W 热插拔 CRPS 晶体管,工作电压范围为 180-264V
最多可支持 4 个 1000W 热插拔 CRPS 晶体管,工作电压范围为 90-140V
冗余模式:4+0、3+1、2+2
噪音水平 39分贝-70分贝
区域网路 主板上最高支持 2 x 10 Gbit/s,PCIe 插槽最高支持 400 Gbit/s。
OS Ubuntu / Windows 11(专业版/家庭版)/ Windows Server
物理和冷却规格
液体冷却 CPU 带 VRM,GPU 带 GDDR 和 VRM
水库 Comino 定制 450ml,带集成泵
风机 3倍超高流量6200转/分(高噪音)或
3倍高流量3000转/分(低噪音)
安装 19英寸机架式或独立工作站
所需机架空间 4U
尺寸 439 x 681 x 177毫米(不含把手和突出部分)
重量 4 个 GPU:净重 49 公斤,毛重 67 公斤
6 个 GPU:净重 52 公斤,毛重 70 公斤
8 个 GPU:净重 55 公斤,毛重 72 公斤
工作和存储温度范围 储存温度:-5..50°C / 23..122°F
工作温度:3..38°C / 38..100°F
科米诺监测系统(CMS)
概述 带传感器和实时监测软件的控制器板
主要优势 冷却系统及CPU/GPU监控、Web界面、冷却系统日志、工作组集中监控
传感器和联网设备 温度(空气和冷却液)、湿度百分比、电压、冷却液流量、冷却液储液罐液位、风扇、水泵、主板、显示屏和按钮
整合的可能性 通过 REST API 建立监控,并将传感器数据推送至监控软件(例如 Zabbix、Grafana)或数据库(例如 InfluxDB)。
CMS技术要求
OS Windows 11 / 10
Ubuntu 22.04/20.4(Ubuntu 依赖项:目标系统必须安装 nvidia-smi 和 sensors 工具)
Web浏览器 Mozilla Firefox、Google Chrome、Chromium、Apple Safari、Microsoft Edge(注意:不支持 Internet Explorer 11)
硬盘驱动器 300MB
控制器固件版本 1.0.6年或以后
控制器PCB版本 2.xx.xx

设计、制造和GPU密度

机箱布局和部署

Grando 服务器堪称空间优化的典范,尺寸仅为 17.3 x 26.8 x 6.97 英寸(4U)。与传统服务器不同,它将主板后部置于机箱前部,颠覆了传统的内部布局。这确保了诸如内存模块和 VRM 等风冷组件在进入后部的液冷散热器之前,能够吸入尽可能冷的空气。

机箱本身也秉承了同样的严苛标准,采用坚固的钢材结构,内外均涂覆哑光黑色粉末涂层。这种精心设计的工艺也延伸至管路、线缆、散热器和PCB焊锡层,体现了整体简洁专业的审美理念。此外,该系统支持灵活的部署方式,既可作为19英寸机架式设备使用,也可作为独立的桌面设备使用。根据配置不同,其重量在148至159磅之间。

Comino Grando RTX PRO 6000 俯视图

GPU冷板和水冷头

Grando 的核心在于其专有的铜质水冷头,它不仅能冷却 GPU 核心,还能冷却显存和电压调节器等其他组件。每张 GPU 都是标准显卡,Comino 在其上安装了定制的冷板组件。这种超薄设计使得每张显卡仅占用一个插槽,从而可以在一个 4U 机箱内并排安装六张甚至八张专业级 GPU。我们评测的这台机器配备了八张 NVIDIA RTX PRO 6000 Blackwell 显卡,每张显卡的 TDP 为 600W,因此满载时的总散热需求高达 4,800W。

Comino Grando NVIDIA RTX PRO 6000 一对散热器侧面轮廓

如果采用风冷散热,几乎不可能实现Comino主板8张单槽GPU的密度,因为标准NVIDIA RTX PRO 6000系列显卡每张占用两个插槽,需要大量的风量。相比之下,这些定制散热的显卡每张仅占用一个插槽。散热板结构坚固,明显增加了每张显卡的重量,但这重量也体现了该级别显卡所需的品质和散热性能。

每对GPU都通过一个专用的子歧管连接,该子歧管将两张显卡的进出水口整合到主冷却液歧管的单个接口中。这种成对连接的方式简化了整体循环架构,减少了主歧管上的连接数量,并且允许技术人员断开一对快速断开接头即可一次性拆卸两张显卡,从而进一步简化了维护工作。

Comino Grando 连接了一对 GPU 卡的软管和快速连接接头

供水分配和歧管

系统的核心是一个大型水分配歧管,它为每个GPU和CPU冷板提供冷却液,并提供回流至散热器的路径。歧管与GPU和CPU之间的所有连接均采用Comino的“TheQ”快速断开接头。这些不锈钢防滴漏接头采用红蓝双色环进行颜色编码,清晰区分回路的冷热端,确保安装和维护过程中不会出现任何混淆。

Comino Grando TheQ 快速断开接头特写

它们断开连接时在接合面上留下的残留物极少,因此技术人员无需排空 450ml 水箱或整个水冷回路中的冷却液,即可拆卸或更换单个 GPU 或 CPU。如此一来,Grando 将风冷系统的维护便捷性带到了高性能液冷平台上。

CPU散热和内存

CPU及其电压调节器也受益于直接连接到冷却回路的专用冷板,从而防止处理器在多GPU高负载运行时成为瓶颈。我们评测的样机配备了一块AMD Turin/Genoa主板,搭载一颗AMD EPYC 9474F 48核处理器。该冷板的品质与显卡冷板相得益彰,采用实心铜材精密加工而成,并用不锈钢螺丝固定。

Comino Grando CPU水冷头

CPU两侧各有八个已插满内存的DRAM插槽,支持最高2TB的内存配置。我们评测的这台机器配备了512GB的DDR5内存。机箱GPU和CPU区域上方有一根支撑杆,与它们垂直,用于固定GPU等敏感组件,并在运输过程中保持机箱的刚性。

散热器和风扇

散热方面,机箱后部安装了一个大型三联装140mm冷排,搭配三个高速140mm风扇,最高转速可达6,200 RPM,风量高达1,000 m³/h。厚实的冷排上密集的鳍片设计凸显了平台的散热潜力,在我们的配置下,该平台能够持续散发高达6.5kW的热量。

最令人惊讶的是,尽管负载如此之高,风扇转速也如此之高,这台机器的噪音水平却控制在可接受的范围内,即使在全速运转时,噪音也仅为 70 分贝左右。对于工作站来说,这已经算是相当响亮了,但考虑到它要散发相当于小型电炉的热量,这样的噪音水平已经相当不错了,这也充分说明了 Comino 的液冷散热系统能够多么高效地将热量从组件中散发出去。

Comino Grando 散热器和风扇

前面板和遥测显示屏

前面板上的 LED 显示屏可实时显示关键遥测数据,包括水泵状态、环境空气温度、冷却液温度和风扇转速。用户可通过冷却模块上的背光按钮浏览菜单,短按按钮可滚动查看可用数据。长按 PB2 按钮可打开其他菜单分支,包括命令、服务设置和事件日志。此外,前面板 I/O 接口还包括一个用于显示输出的 VGA 端口、一个串口、多个 USB 端口以及用于连接外围设备和网络接口的端口。

Comino Grando 前面板 I/O 和电源按钮带 LCD 显示屏

电源和存储架构

电力输送和冗余

如此强大的计算能力需要同样可靠的电源供应。Grando 支持最多四个 1000W 或 2000W 热插拔 CRPS 模块,采用冗余配置,可在 180–264V 电压范围内提供高达 8.0kW 的功率。凭借对 4+0、3+1 和 2+2 冗余模式的支持,该系统能够容忍电源故障,同时确保全天候 (24/7) 人工智能和高性能计算工作负载的持续运行。

Comino Grando RTX PRO 6000 后置电源和存储。

我们评测的样机配备了四个长城 2000W 80 Plus 白金热插拔电源,组成了完整的 8.0kW 配置。

Comino Grando 单热插拔 2000W 电源

每个GPU的供电都通过一个集中式的12针电源分配板进行,该分配板安装在GPU阵列和主线缆之间。Grando利用这个分配板将输入的电源集中起来,然后以有序且节省空间的方式将其分支到每个GPU。

Comino Grando GPU电源分线器和线缆

PCIe、存储和网络

Grando 机箱可轻松支持六张显卡,且不会影响插槽带宽,其机箱可扩展至八张显卡配置,实现最大密度。Comino 机箱采用 ASRock Rack GENOAD8X-2T/BCM 主板,提供七个 x16 和一个 x8 PCIe Gen 5 插槽,这意味着八张显卡中有七张可以以 x16 带宽全速运行,而第八张显卡则以 x8 带宽运行。这是在单路 CPU 可支持的 PCIe 通道数量和 Comino 不愿增加 PCIe 切换板的尺寸、成本和复杂性之间做出的权衡。如果采用双路主板,虽然可以提供更多 PCIe 通道,但由于第二个 CPU 插槽会占用原本用于 PCIe 插槽的空间,因此可用的插槽数量会更少。

Comino Grando GPU 显示连接。

在单路系统中运行八块显卡会占用大部分可用的 PCIe 通道,这会带来一些权衡。我们评测的这台基于 AMD Genoa 平台的机器总共有 128 条 PCIe Gen 5 通道。八块显卡占用了其中的 120 条通道,剩余的 8 条通道被四路分配给每个 M.2 SSD 插槽,因此无法同时运行八块显卡和所有通过机箱后部两个 MCIO 接口连接的 NVMe 固态硬盘。在我们配置八块显卡的情况下,只有两个 M.2 插槽可用于存储。需要额外 NVMe 容量并同时追求最大显卡密度的管理员应该注意,通过背板硬盘笼添加后置热插拔 NVMe 固态硬盘会占用额外的 PCIe 通道,并限制系统中部分显卡的性能。

Comino Grando 单路主板框图

ASRock Rack GENOAD8X-2T/BCM 主板框图显示了 CPU、PCIe Gen 5 插槽、DIMM 通道、M.2 插槽、BMC、USB、SATA 和网络连接。

尽管如此,存储方面同样采用了模块化设计,并且扩展性极佳,但其配置会影响GPU的PCIe通道预算,因此在规划使用场景时需要格外注意。我们评测样机的后面板配备了一个2.5英寸硬盘笼,最多可支持四个2.5英寸SSD,支持4个7mm或2个15mm两种配置。此外,还可以选择在第四个电源插槽的位置安装第二组最多四个SSD。由于我们的评测样机需要占用全部四个电源位才能支持完整的8GPU配置,因此我们只能使用两个热插拔电源位中的第一个。机箱内部可以安装一个3.5英寸硬盘笼,最多可容纳四个3.5英寸硬盘、四个2.5英寸15mm硬盘或最多十二个2.5英寸7mm硬盘,如果配置得当,还可以额外安装四个内部2.5英寸7mm SSD插槽。

Comino Grando 2.5英寸固态硬盘托架

网络方面,主板标配两个板载 RJ45 10 Gb/s 端口(由 Broadcom BCM57416 芯片驱动)以及一个专用的千兆以太网 IPMI 管理端口。管理员可以通过安装支持高达 400 Gb/s 带宽的 PCIe 网卡来进一步提升带宽,实现高带宽网络连接。但需要注意的是,额外的 PCIe 网卡会占用 GPU 插槽,从而减少系统可容纳的 GPU 数量上限。

Comino Grando 卡管和 M.2 存储的视图

远程管理和系统智能

为了保护硬件并优化性能,该系统配备了科米诺监控系统 (CMS)。CMS 由一块独立的自主控制器板驱动,作为服务器的“大脑”,独立于主操作系统运行。实际上,该控制器读取一系列传感器的数据,实时监测空气和冷却液温度、湿度、冷却液流量以及储液罐液位。至关重要的是,这种自主设计使 CMS 能够进行自我诊断,并在检测到泄漏或泵故障时触发紧急停机,从而保护昂贵的内部硬件免受损坏。

基于 Web 的图形用户界面 (GUI) 可处理日常管理,使管理员能够清晰地了解 CPU 和 GPU 的散热性能、正常运行时间和实时能耗。对于企业级部署,CMS 还可通过 REST API 连接到集中式监控工具,例如 Zabbix、Grafana 和 InfluxDB。这些功能共同帮助管理员维持 3 年的服务间隔期,并确保服务器即使在高温环境下也能以最佳效率运行,而不会出现过热降频。

超越人工智能:创意和工程应用

虽然我们的测试侧重于人工智能推理工作负载,但 Grando 对于需要强大本地 GPU 计算能力的创意专业人士和工程师来说同样实用。八张 RTX PRO 6000 显卡共计 768GB 的​​显存,使其拥有传统工作站配置无法比拟的强大性能。

特效艺术家和动态图形专业人士可以将包含海量纹理集的复杂场景完全渲染在显存 (VRAM) 中,从而消除困扰 8K 素材或高多边形环境制作的磁盘交换瓶颈。运行计算流体动力学或结构模拟的 CAD 工程师可以处理前所未有的复杂组件,而无需将模型分割成多个运行步骤。处理多流 8K RAW 时间线的视频剪辑师、应用全分辨率机器学习降噪的调色师以及在本地渲染路径追踪最终效果而无需等待云端资源的 3D 艺术家,都能从这种高密度的 GPU 内存和计算能力中受益。

Grando 平台并不需要完整的八 GPU 配置。Comino 提供四 GPU、六 GPU 和八 GPU 三种配置方案,所有版本均可立即发货。小型工作室、独立创作者和工程团队可以根据当前需求灵活选择合适的配置,并在工作负载增长时拥有清晰的升级路径。

平台权衡:密度与可扩展性

Grando 的紧凑设计在标准的 4U 空间内实现了卓越的 GPU 密度和散热管理,但这种密度涉及架构上的权衡,在部署之前值得了解。

该机箱兼容EATX和EEB规格的主板,但不兼容传统双路平台中常见的扩展型服务器主板。这限制了除GPU阵列之外可用于外设的PCIe通道总数。在我们采用的八GPU配置中,AMD EPYC处理器的128条PCIe Gen 5通道几乎全部被GPU占用,仅剩少量带宽可用于板载10GbE端口之外的额外NVMe存储或高速网络连接。

这与我们评测过的戴尔、HPE 和 Supermicro 的八 GPU 平台形成鲜明对比。这些系统采用更大的机箱、双路配置和 PCIe 交换机拓扑结构,以支持更丰富的外部连接。它们通常除了完整的 GPU 组件外,还能容纳四到八个额外的网卡或 DPU,以及八个或更多热插拔 NVMe 硬盘位,使其非常适合需要高带宽互连的分布式推理工作负载。

然而,这种扩展能力的代价相当高昂。功耗超过 8kW。散热需求需要专用的数据中心冷却基础设施。噪音水平限制了其在专用机房之外的部署。此外,由于企业级 GPU 平台持续面临供应限制,交付周期通常长达六到十八个月。

Grando 的定位有所不同。对于那些优先考虑快速部署、易于管理的运行环境以及推理或创造性工作负载而非大规模分布式训练的组织而言,其权衡取舍通常是有利的。对于那些需要立即获得硬件并在实际可用的环境中工作的团队来说,Grando 的高密度部署方案可能比排队等待一个到货后无法真正部署的平台更加实用。

科米诺格兰多性能测试结果

科米诺格兰多俯视图水冷却歧管

系统配置

  • 底盘: 科米诺格兰多
  • 主板: 华擎机架 GENOAD8X-2T/BCM
  • CPU: AMD EPYC 9474F 48℃
  • 记忆: 512GB DDR5
  • GPU: 8 x NVIDIA RTX PRO 6000
  • 存储: M.2 SSD

Claude Code Serving – MiniMax M2.5

除了传统的原始LLM推理基准测试之外,我们还想评估该硬件在智能体编码工作流程中的性能,特别是通过使用本地托管模型支持多个并发的Claude Code会话。此用例直接关系到开发团队的生产力:在体验下降之前,有多少工程师可以同时使用由单个节点提供的AI编码助手?

为了验证这一点,我们构建了一个基准测试框架,该框架生成一个中等难度的编码问题数据集(例如实现 LRU 缓存、构建 CLI 待办事项应用程序、编写 Markdown 转换器以及构建 REST API),并在单独的 Docker 容器中针对本地 vLLM 服务器运行每个 Claude Code 会话。会话和推理端点之间有一个透明代理,用于捕获每个 Claude Code 实例的请求指标。我们使用的模型是 MiniMax M2.5,通过 vLLM 在系统的八块 NVIDIA RTX PRO 6000 GPU 上运行。虽然 M2.5 在公开排行榜上并非排名最高的编码模型,但它是一个功能强大的模型,许多用户(包括我们的开发者朋友)都在本地运行它。

作为基准参考点,我们使用 Anthropic 的 Claude Opus 4.6 通过 OpenRouter.ai(最流行的生产 API 访问路由服务之一)测得的平均输出吞吐量。该基准值约为每个 API 请求每秒 37 个令牌。

我们测量了两个关键指标:每个 Claude Code 会话每秒平均输出令牌数(每个开发人员的体验)和所有会话每秒总输出令牌数(服务器产生的总工作量)。

根据测试结果,单个并发 Claude Code 会话的单用户吞吐量为 67.3 tok/s,总吞吐量为 64.7 tok/s。当会话数为 2 时,单用户吞吐量略微下降至 57.4 tok/s,而总吞吐量则攀升至 95.1 tok/s,这是因为 vLLM 的批处理机制开始分摊开销。四个并发会话的单用户吞吐量保持在 49.2 tok/s,对于交互式编码工作流程而言,这仍然提供了高度流畅的体验,而总吞吐量则达到了 177.2 tok/s。八个并发会话是总吞吐量的最佳组合,峰值达到了 206.7 tok/s,而单用户吞吐量则稳定在 38.7 tok/s,这一水平对于实时代码生成和迭代来说仍然足够流畅。

在 16 个并发会话的情况下,系统表现出经典的批处理权衡:单个实例的吞吐量下降到 31.1 tok/s,总输出下降到 105.8 tok/s。这表明,在这种并发级别下,230B MiniMax M2.5 模型已经接近八块 GPU 所能承受的极限,否则会给每个用户带来明显的延迟。从 8 个会话到 16 个会话的总吞吐量下降,反映的是大型 MoE 架构在高负载并发解码情况下对内存带宽的需求,而不是调度效率低下。

对于正在评估用于开发者工具的自托管 AI 基础设施的组织而言,Grando 无疑是一个强有力的选择。它运行着前沿的 230B 模型,能够轻松支持多达八个并发的 Claude Code 会话,吞吐量水平之高令人感觉真正具有交互性,峰值总输出时,每个用户的速度超过 38 tok/s。由四到八名工程师组成的团队可以以接近最佳吞吐量运行,而不会出现明显的响应速度下降。

这种液冷架构使得这种级别的计算能力能够在传统GPU服务器无法运行的环境中得到实际应用。该系统运行噪音极低,足以放置在初创公司办公室、小型机房或开放式工作空间的专属角落。而同等GPU密度的风冷系统噪音通常达到90分贝甚至更高,这足以需要专用的数据中心空间,或者至少需要一个经过严格隔音处理的封闭式服务器机房。Grando可以与使用它的团队和谐共存。凭借完全的数据本地化、零API令牌费用以及对模型选择的完全控制,它提供了一种自托管方案,可以随着开发团队的壮大而扩展,而无需数据中心基础设施或同步增加成本。

vLLM 在线服务 – LLM 推理性能

vLLM 是 LLM 领域最流行的高吞吐量推理和服务引擎之一。vLLM 在线服务基准测试评估了该推理引擎在并发请求下的实际服务性能。它通过向运行中的 vLLM 服务器发送请求来模拟生产环境的工作负载,并可配置请求速率、输入输出长度和并发客户端数量等参数。该基准测试测量关键指标,包括吞吐量(每秒令牌数)、首令牌时间 (TTF) 和单次输出令牌时间 (TPOT),帮助用户了解 vLLM 在不同负载条件下的性能。

我们测试了涵盖各种架构、参数规模和量化策略的一系列模型的推理性能,以评估不同并发配置下的吞吐量。

结果总结

型号 平台精度 等于 (256/256) 预填充-重(8k/1k) 解码密集型(1k/8k)
Comino Grando 配备 8 块 RTX PRO 6000 Blackwell 显卡 — vLLM 推理结果(tok/s,峰值 BS=256)
GPT-OSS 20B ep_dp1 17,280 32,061 11,187
GPT-OSS 120B ep_dp1 11,726 21,636 7,570
骆驼 3.1 8B 指导 FP8 12,109 20,137 7,353
骆驼 3.1 8B 指导 FP4 11,954 20,206 7,239
骆驼 3.1 8B 指导 BF16 11,752 17,346 6,155
Qwen3 Coder 30B A3B FP8 10,985 16,659 4,907
Qwen3 Coder 30B A3B BF16 10,588 16,680 4,829
米斯特拉尔小号 3.1 24B BF16 8,925 11,846 4,975
MiniMax M2.5 (230B) ep_dp1 5,753 7,357 * 2,555
所有数值均以 tok/s 为单位,峰值吞吐量为 BS=256。*MiniMax M2.5 预填充量较大的情况在 BS=128 时达到峰值(7,357 tok/s);BS=256 时为 7,141 tok/s。

GPT-OSS 120位和20位

GPT-OSS 模型系列在 Comino Grando 上进行了 120B 和 20B 配置的测试。

GPT-OSS 120B

在相同工作负荷(256/256)下,120B 型号在 BS=1 时输出速度为 268.85 tok/s,在 BS=64 时达到 6,666.23 tok/s,在 BS=256 时达到峰值 11,726.04 tok/s。预填充较重(8k/1k)时,初始速度为 1,375.69 tok/s,在 BS=64 时攀升至 16,374.19 tok/s,在 BS=128 时攀升至 17,944.55 tok/s,在 BS=256 时达到峰值 21,636.41 tok/s。解码密集型(1k/8k)从 BS=1 时的 196.28 tok/s 增长到 BS=256 时的 7,569.97 tok/s,在较低的并发级别下延迟得到了很好的控制。

GPT-OSS 20B

在相同工作负载下,20B 模型在 BS=1 时吞吐量为 334.80 tok/s,在 BS=64 时达到 10,303.56 tok/s,在 BS=256 时达到峰值 17,280.12 tok/s。预填充密集型任务的吞吐量从 2,007.90 tok/s 开始,在 BS=64 时攀升至 24,990.46 tok/s,在 BS=128 时攀升至 26,866.25 tok/s,在 BS=256 时达到峰值 32,060.72 tok/s,这是两种模型尺寸下记录到的最高绝对预填充吞吐量。解码密集型运算速度从 BS=1 时的 286.08 tok/s 增长到 BS=256 时的 11,187.36 tok/s,在峰值并发时实现了 120B 解码吞吐量的约 1.5 倍,同时保持了更紧凑的延迟。

Qwen3 Coder 30B A3B 指导和 FP8 指导

Qwen3-Coder-30B-A3B-Instruct 模型分别使用 BF16 和 FP8 精度进行了测试。

Qwen3-Coder-30B-A3B-Instruct (BF16)

在相同工作负载 (256/256) 下,BF16 模型在 BS=8 时输出速度为 1,902.32 tok/s,在 BS=64 时达到 6,683.58 tok/s,在 BS=256 时达到峰值 10,587.56 tok/s。预填充较重 (8k/1k) 时,在 BS=1 时输出速度为 1,256.03 tok/s,在 BS=64 时攀升至 14,400.57 tok/s,在 BS=128 时攀升至 15,308.35 tok/s,在 BS=256 时达到峰值 16,679.52 tok/s。解码密集型(1k/8k)从 BS=1 时的 169.19 tok/s 增长到 BS=256 时的 4,828.82 tok/s,在较低的并发级别下延迟得到了很好的控制。

Qwen3-Coder-30B-A3B-Instruct (FP8)

在大多数情况下,FP8 模型的吞吐量与 BF16 相当,在相同工作负载下,BS=64 时吞吐量达到 6,478.54 tok/s,BS=256 时峰值达到 10,984.61 tok/s,在峰值并发量下略优于 BF16。预填充密集型场景下,吞吐量在 BS=1 时为 987.48 tok/s,在 BS=64 时攀升至 14,036.46 tok/s,在 BS=128 时攀升至 15,156.69 tok/s,在 BS=256 时峰值达到 16,658.98 tok/s。解码密集型算法的运算速度从 BS=1 时的 130.70 tok/s 增长到 BS=256 时的 4,906.51 tok/s,在峰值并发时略微超过 BF16,而这两个配置在其余并发范围内保持紧密匹配。

Mistral Small 3.1 24B 指令 2503

在相同工作负载 (256/256) 下,该模型在 BS=8 时达到 1,598.79 tok/s,在 BS=64 时达到 4,713.84 tok/s,并在 BS=256 时显著提升至 8,925.12 tok/s。预填充较多 (8k/1k) 的情况下,该模型在 BS=1 时从 897.84 tok/s 开始,在 BS=64 时攀升至 9,632.58 tok/s,在 BS=128 时达到 11,488.13 tok/s,并在 BS=256 时达到峰值 11,846.15 tok/s。解码密集型(1k/8k)从 BS=1 时的 124.98 tok/s 增长到 BS=64 时的 2,653.82 tok/s,然后在更高的并发水平下明显加速,在 BS=128 时达到 4,262.53 tok/s,在 BS=256 时达到峰值 4,975.06 tok/s,这反映了该模型在并发规模扩大时保持强大解码吞吐量的能力。

骆驼 3.1 8B 指导

在 Comino 上对 Llama-3.1-8B-Instruct 模型进行了三种精度配置的测试,从而清晰地展示了量化如何影响此模型大小的吞吐量。

羊驼 3.1 8B 指令 BF16

在相同工作负载 (256/256) 下,BF16 模型在 BS=8 时输出速度为 2,776.42 tok/s,在 BS=64 时达到 7,369.01 tok/s,在 BS=256 时达到峰值 11,751.56 tok/s。预填充较重 (8k/1k) 时,在 BS=1 时输出速度为 1,645.29 tok/s,在 BS=64 时攀升至 14,990.47 tok/s,在 BS=128 时攀升至 17,140.71 tok/s,在 BS=256 时达到峰值 17,345.80 tok/s。解码密集型(1k/8k)从 BS=1 时的 234.78 tok/s 增长到 BS=256 时的 6,154.73 tok/s。

Llama 3.1 8B 指令 FP8

FP8 量化在所有场景下均实现了显著的性能提升。在相同工作负载下,BS=64 时性能达到 7,530.39 tok/s,在 BS=256 时达到峰值 12,108.98 tok/s。预填充密集型场景下,BS=64 时性能提升至 16,546.53 tok/s,BS=128 时性能提升至 19,306.49 tok/s,在 BS=256 时达到峰值 20,137.35 tok/s,相比 BF16 在峰值并发下的性能提升约 16%。解码密集型场景下,BS=256 时性能峰值达到 7,353.40 tok/s,比 BF16 的性能提升约 19%。

Llama 3.1 8B 指令 FP4

在高并发水平下,FP4 的吞吐量与 FP8 非常接近,但在低批处理大小下略逊一筹。在批处理大小为 256 时,相同工作负载下的吞吐量峰值达到 11,954.40 tok/s;预填充密集型工作负载下的吞吐量峰值同样为 20,205.57 tok/s,在峰值并发水平下略微领先于 FP8。解码密集型工作负载下的吞吐量峰值为 7,239.29 tok/s,始终与 FP8 保持几个百分点的差距。因此,当内存效率至关重要且吞吐量损失不大时,FP4 是一个极具吸引力的选择。

MiniMax M2.5

在 Comino Grando 上测试的 MiniMax-M2.5 230B 是我们使用过的最大、要求最高的型号。

在相同工作负载 (256/256) 下,该模型在 BS=1 时初始吞吐量为 16.35 tok/s,在 BS=64 时达到 2,751.25 tok/s,并在更高的并发度下显著提升,在 BS=256 时达到峰值 5,753.24 tok/s。预填充密集型任务 (8k/1k) 在 BS=1 时初始吞吐量为 606.97 tok/s,稳步攀升至 BS=32 时的 5,351.02 tok/s 和 BS=64 时的 6,557.92 tok/s,在 BS=128 时达到峰值 7,357.26 tok/s,之后略有下降至 BS=256 时的 7,140.74 tok/s,表明该模型在 BS=128 以上时预填充吞吐量接近饱和。解码密集型(1k/8k)的速率从 BS=1 时的 82.21 tok/s 持续增长到 BS=64 时的 1,485.28 tok/s,在 BS=256 时达到峰值 2,554.87 tok/s,反映了 230B MoE 架构在持续解码工作负载下的预期内存带宽需求。

结语

Comino Grando 的最佳理解是,它是一个专为充分发挥八颗 NVIDIA RTX PRO 6000 GPU 全部潜能而打造的系统。从反向主板布局到散热回路和集成监控系统,每一项重要的设计决策都旨在确保这些 GPU 能够在 600W TDP 的满负荷下持续运行,而不会受到散热或功耗的限制。

Comino Grando RTX PRO 6000 GPU

Grando 的魅力不在于任何单一功能,而在于整个系统的协调统一。液冷并非后期加装,而是架构的一部分。供电设计冗余、支持热插拔,并能轻松应对八张 600W 显卡 4,800W 的负载,且仍有余量。监控系统不仅能报告温度,还能在出现故障时自动保护硬件。这里的一切都体现了精益求精的态度,而非事后补救。

性能数据进一步印证了这一点。从 Llama 3.1 8B 到 230B MiniMax M2.5,Grando 在各种模型上都展现出了优异的吞吐量,对于自托管平台而言实属难得。Claude Code 的并发测试更凸显了其实际价值:八位工程师可以同时对本地托管的 230B 模型进行交互式编码,峰值聚合输出下,每位用户的吞吐量超过 38 tok/s。四到八人的团队可以以接近最佳的吞吐量运行,且性能几乎没有下降。

这种配置的价值远不止于人工智能推理。凭借每块GPU 96GB的显存和强大的多GPU扩展能力,该平台同样适用于高端创意和工程工作负载,包括视觉特效渲染、大规模仿真和复杂的CAD流程。该系统可扩展至四GPU和双GPU配置,使小型工作室和团队也能获得工作站级别的性能。

Grando 与我们评测过的企业级八 GPU 平台最大的区别在于部署的实用性。那些系统提供更大的 PCIe 通道空间、更多的网卡插槽和更强大的存储连接,但它们也需要专用的数据中心基础设施,功耗超过 8kW,而且交货周期可能超过一年。Grando 牺牲了一些外设扩展性,换取了运行噪音低到可以与用户共用一个房间、散热量更少且现已上市的系统。对于那些优先考虑快速部署和易于管理的运行环境而非最大网络连接性的组织而言,这种权衡是有利的。

产品页面 – Comino Grando
Comino 配置器 – 页面

参与 StorageReview

资讯订阅 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter(现为X) | TikTok | RSS订阅

迪伦·多尔蒂

K-12 网络管理员,精通 Cisco 网络、IP 安全和 NAC 解决方案。UniFi 爱好者和家庭实验室人员,负责测试和审查网络和安全产品。