首页 企业版 ROBO HCI 中弹性和集群管理的重要性

ROBO HCI 中弹性和集群管理的重要性

by 汤姆芬顿
戴尔易安信 AX-640

小型办公室和远程/分支办公室 (ROBO) 环境中计算资源的部署和持续管理一直存在问题,其中有许多不同且相互竞争的因素在起作用。 许多企业以及中小型企业 (SMB) 都依赖 ROBO HCI 系统来处理作为这些组织命脉的日常关键业务交易。 这些系统需要低成本但高性能,提供冗余但组件尽可能少,并且维护良好但没有昂贵的 IT 资源和人员专用于每个站点。

使用适用于 Microsoft Azure Stack HCI 的 Dell EMC 解决方案

小型办公室和远程/分支办公室 (ROBO) 环境中计算资源的部署和持续管理一直存在问题,其中有许多不同且相互竞争的因素在起作用。 许多企业以及中小型企业 (SMB) 都依赖 ROBO HCI 系统来处理作为这些组织命脉的日常关键业务交易。 这些系统需要低成本但高性能,提供冗余但组件尽可能少,并且维护良好但没有昂贵的 IT 资源和人员专用于每个站点。

幸运的是,IT 供应商已经认识到 ROBO 系统的独特挑战,并提出了应对这些挑战的解决方案。 在本文中,我们将了解运行 Microsoft 软件的 Dell Technologies 硬件如​​何应对这些挑战。 我们的方法与我们通常关注系统性能的常规文章略有不同。 虽然我们将在系统上运行性能测试,但我们还将查看其从初始大小开始的整个生命周期。

ROBO HCI简介

我们将在本文中看到的系统是 适用于 Microsoft Azure Stack HCI 的 Dell EMC 解决方案 具有 2 个运行 Windows Server 2019 (2NC) 的 AX 节点的集群。 今年早些时候,Dell Technologies 发布了专门设计(经过验证和认证)以运行 Azure Stack HCI 的 AX 节点。 Dell Technologies 目前在其解决方案目录中提供三种不同的节点类型: AX-640、AX-740xd 和 AX-6515. 这些模型中的每一个都使客户能够通过配置不同的组件来为其 ROBO HCI 部署设计理想的平台。

AX-640 和 AX-740xd 节点是使用第二代英特尔至强可扩展处理器的双路节点,而 AX-6515 是运行 64 核 Gen 2 AMD EPYC 处理器的单路节点。 Dell EMC 的 AX 型号允许客户选择最适合其用例的节点。 AX-640 适用于计算密度工作负载,AX-740xd 适用于存储容量繁重的工作负载,而 AX-6515 适用于需要在其企业数据中心中实现价值优化系统和处理器多样化的用户。

Dell EMC Azure 前角

我们将在本文中仔细研究的系统是 AX-640,这是一个支持 1 至 96GB RAM 的双路 768U 节点。 它可以配置 3 到 92TB 的 NVMe、SSD 和/或 HDD 存储,以创建混合或全闪存存储。 它是目前 AX 产品组合中唯一支持英特尔超高性能傲腾持久内存和 SSD 设备的节点。 如果配置得当,AX-640 节点将成为最快的商用 HCI 节点的有力竞争者。 Dell Technologies 有一张漂亮的图表,概述了他们的 AX 节点的 Azure Stack HCI 配置选项。

StorageReview-Dell-Azure-Stack1

我们将在本文中使用的 AX-640 节点配备了双 Intel Xeon 6230 CPU、384GB DDR4 内存以及 4 个 XNUMXTB NVMe SSD。

部署 ROBO HCI 解决方案时,拥有可靠且高性能的硬件只是成功的一半; 另一半是软件。 在这种情况下,我们将运行经过 Azure Stack HCI 验证的系统。 Azure Stack HCI 允许客户运行 Windows Server 操作系统,并通过无缝连接到 Azure 云以获得额外服务(例如备份和灾难恢复)的额外好处 Microsoft Windows 管理中心. Azure 服务通过来自同一管理平面的 WAC 扩展进行集成。

Azure Stack HCI 使用 Hyper-V 作为其管理程序,使用 Storage Spaces Direct 作为本地存储。 使用 2NC 进行 ROBO HCI 部署可以大大降低实施成本。 对于极其注重成本的实施,它可以配置为在 2NC 配置中工作,而无需在其存储结构的单链路或双链路配置中使用交换机。 对于交换实施,10GbE 网络将起作用。 Dell Technologies 建议使用 25GbE 存储网络,因为它的成本不会比 10GbE 网络高很多。

显然,如果系统没有弹性,减少公司在设备上的投资是行不通的。 在每个系统的基础上,Storage Spaces Direct 支持双向和三向镜像以及单奇偶校验和双奇偶校验擦除编码。 Microsoft 在记录存储效率以及这些不同保护方案的一般优势和权衡方面做得很好。 我们建议仔细阅读它以确定哪种方案最适合您的环境。 镜像通常是性能最高的,这是我们在测试中使用的。

Azure Stack HCI 可以使用嵌套双向镜像或嵌套镜像加速奇偶校验作为弹性的一种选择。 前者提供更好的性能,后者允许更高的数据效率。 嵌套双向镜像在主机和其他节点上创建数据的 RAID 1 副本。 嵌套镜像加速奇偶校验在每台服务器上制作数据副本,但使用擦除编码而不是 RAID 1 来实现数据弹性(最近使用双向镜像确保可靠性的写入除外)。 嵌套双向镜像,数据有25个副本写入磁盘,数据效率为33%; 相比之下,嵌套镜像加速奇偶校验的数据效率为 40% 到 XNUMX%。

两种方案都能够同时支持驱动器故障和服务器故障。

嵌套弹性方案都不需要特殊的 RAID 硬件。

Microsoft 2NC 拓扑需要作为中立第三方的见证人向幸存节点添加投票,以防止出现“裂脑”情况。 您可以使用文件共享(我们在测试中使用过)或 Azure 云作为见证。 如果群集中的两个节点都具有可靠的 Internet 连接,Microsoft 建议使用后者。 Azure 云见证是一个 blob 存储对象,而文件共享是一个 SMB 文件共享。 见证仅包含见证日志文件。

ROBO HCI 采购和部署

正如承诺的那样,我们希望全面了解在 ROBO 情况下采购、部署和管理 AX 节点集群需要做些什么。

部署新系统的第一步是确定其规模。 Dell Technologies 使用 Live Optics 可以轻松计算部署所需的设备,Live Optics 是一种免费的在线工具,用于收集有关环境存储、数据保护、服务器和文件系统的数据。 尽管它能够在部署后 24 小时内深入了解您的环境,但您让 Live Optics 运行的时间越长,它就会越了解您正在运行的工作负载的特征。 Live Optics 可以从 Microsoft Windows、VMware vCenter 或 Linux/Unix 服务器收集数据。

Live Optics 仪表板将显示从整个环境的 CPU、内存和存储使用情况收集的编译数据,所有这些都将为您提供您的环境中需要哪种类型系统的准确图片。 如果您希望其他用户(即同事、VAR 等)提出尺码建议,您还可以与他们共享此数据。

从 Live Optics 收集的数据用于通过 Dell Technologies 客户团队提供的 Azure Stack HCI sizer 工具。 sizer 工具内置了所有 Engineering 的最佳实践,可以生成配置选项,不仅满足您当前的需求,而且可以考虑您未来的发展。

ROBO 环境的问题之一是寻找本地 IT 人才来设置和配置它们。 完成此任务的一种方法是使用 Dell EMC ProDeploy 服务。 此选项可帮助组织加快向远程站点的部署,这意味着它们在线并立即增加价值。 或者,如果您确实有本地资源并想自己部署,戴尔有文档和脚本来引导您完成整个过程。

任何组织最头疼的问题之一就是支持系统。 支持复杂系统所涉及的大量麻烦是涉及多个硬件和软件供应商。 例如,您可能有一个供应商提供服务器和存储,另一个供应商提供网络交换机,第三个供应商提供操作系统。 Dell EMC ProSupport 通过为其 HCI 解决方案配备专门的支持人员来帮助简化此过程。 这些支持工程师接受过 Dell Azure Stack HCI 系统的硬件和软件方面的培训并且知识渊博,如果需要,他们知道将问题上报给正确的人。

当我们无意中错误配置系统安装时,我们有机会利用 Dell Technologies HCI 专门的支持人员。 与我们合作的支持工程师知识渊博,能够帮助我们解决我们陷入的困境。

达世币节点日常管理

在完美的世界中,ROBO HCI 部署根本不需要管理。 但这不是现实,戴尔技术和微软有次优选择。 当系统位于很少或没有本地 IT 支持的远程位置时,拥有系统维护所需的工具非常重要。 Dell Technologies 通过使用 Windows Admin Center (WAC) 和一些针对他们自己的 IP 的扩展来实现这一点,Dell EMC OpenManage Integration for Windows Admin Center。

WAC 是一个基于浏览器的管理平台工具,用于管理 Windows 10 和 Windows Server。 它安装在客户端系统上,并通过 Windows 远程管理 (WinRM) 使用远程 PowerShell 和 Windows Management Instrumentation (WMI) 来监视和管理 Windows 系统以及 Azure Stack HCI 集群。

WAC 的概览窗格提供了系统资源利用率的摘要以及用于管理系统证书和设备的工具。 WAC 还允许您查看事件和进程、安装角色和功能,以及管理本地用户和组、防火墙、服务和存储。

Dell Technologies 利用 WAC 的可扩展性,创建了 Dell EMC OpenManage Integration with Microsoft Windows Admin Center (OMIMSWAC)。 这旨在简化深度硬件监控和库存以及编排 BIOS、固件和驱动程序更新的过程。 OMIMSWAC 使用 Windows Server 2019 的集群感知更新功能来更新 AX 节点和 Azure Stack HCI 集群。 要启动 OMIMSWAC,请单击 Dell EMC OpenManage 集成 位于 WAC 的功能区栏上。

我们通过启动 WAC 将 OMIMSWAC 添加到我们的系统中,单击 个人设置 然后 扩展名 进入 戴尔EMC 在搜索文本框中,选择 Dell EMC Open Manage 集成,然后点击 安装.

通过使用 OMIMSWAC 查看我们的集群,我们可以了解系统的运行状况并深入了解硬件,以查看其组件的清单以及它们使用的固件。

您甚至可以使用 OMIMSWAC 启动 iDRAC 控制台以对 AX 节点进行带外管理。

发现集群后,您可以使用 OMIMSWAC 查看集群级别节点的合规性报告。 如果运行 OMIMSWAC 的系统具有互联网连接,它将自动从 downloads.dell.com 下载 Dell EMC System Update (DSU) 和 Dell EMC Inventory Collector (IC) 实用程序以运行合规性并更新目标节点(如果 DSU)和 IC 未在设置中配置。

OMIMSWAC 在完成例行任务(例如更新)方面确实表现出色。 OMIMSWAC 不仅会自动下载所需的戴尔更新包 (DUP),还会对集群进行滚动更新以消除停机时间。

达世币节点测试

在查看 Dell EMC 2 节点 HCI 集群时,我们希望通过不同的故障场景查看其性能和应用程序可用性。 为此,我们配置了一个 SQL Server 性能测试,该测试由多达 8 个运行 Windows Server 2019 的 SQL Server 2019 虚拟机组成,在我们的 2 节点集群上保持平衡。 然后为每个 SQL Server 实例提供一个 1,500 规模的 TPC-C 数据库,其中数据库和日志文件的容量等于每个实例 350GB。 这为我们提供了一个数据库存储空间,范围从 1.4TB(4 个虚拟机)到 2.8TB(8 个虚拟机)不等。 我们使用 Quest 的 Benchmark Factory 作为该项目的工作负载生成器,有 15,000 个虚拟用户与每个 VM 进行交互。

每个 VM 都分配有 8 个虚拟 CPU 和 60GB RAM 及其存储空间。 我们的集群配置为每台主机 384GB RAM,在我们的故障节点场景中,我们将 VM RAM 分配降低到 40GB 以适应单个主机上的所有 8 个 VM。

我们的四个数据库测试场景是:

  • 工作集群:总共 8 个虚拟机,每个节点 4 个虚拟机
  • 节点上的 1 个 SSD 发生故障:总共 8 个虚拟机,每个节点 4 个虚拟机
  • 一个节点发生故障:总共 8 个虚拟机,每个节点 8 个虚拟机

在我们测量 8 个 VM 性能的第一个测试中,每个节点 4 个,测得平均延迟为 5 毫秒。

虽然强大的性能和低数据库延迟很好,但了解平台在非最佳条件下的表现同样重要。 我们的第一个场景涵盖了平台如何响应故障 SSD。 我们启动了工作负载,并在其稳定后立即从一个节点中提取了一个 SSD。 在那种情况下,性能从正常情况下的 6.5 毫秒略微减慢到 5 毫秒。

我们的第二个场景涵盖了如果一个节点因维护而离线时集群将如何运行,或者如果一个节点发生故障将如何运行。 在这两种情况下,一切都会回退到一个节点,尽管后端网络上没有流量通过是一个微妙的优势。 在这种情况下,我们测得的平均延迟为 5.875 毫秒。

总结

我们看到越来越多的人对用于 ROBO 应用的 2NC 感兴趣。 公司正在寻找价格合理、坚如磐石并且只需要与 IT 员工进行最少交互的系统,因为访问这些系统可能会出现问题。 适用于 Azure Stack HCI 的 Dell EMC 解决方案检查了所有这些要求。

AX 节点英特尔 SSD

我们研究了如何正确调整、获取和设置 2NC ROBO HCI 系统。 与 Dell Technologies 合作如此轻松让我们印象深刻。 在查看了初始系统设置后,我们又查看了维护系统所需的条件,并再次对 WAC 使此过程如此简单而印象深刻。 然而,真正让我们震惊的是 Dell Technologies OMIMSWAC 集成,因为它对我们的系统进行了滚动升级,涵盖了从固件开始的所有内容,几乎没有操作员交互。 这是 Dell Technologies 的一个根本差异化因素,因为这种集成深度对于 Azure Stack HCI 提供商来说是独一无二的。

当我们在系统上运行我们的基准测试时,我们发现在最佳条件下强大的应用程序工作负载性能。 我们的 SQL Server TPC-C 工作负载在四个均匀放置在集群上的 2.25 规模虚拟机上测得为 1,500 毫秒,当该工作负载增加到八个虚拟机时测得为 5 毫秒。 然而,更令人印象深刻的是集群在 SSD 出现故障或只有一个节点运行时的表现如何。 在 SSD 发生故障的第一种情况下,我们的 8VM 工作负载的延迟从 5 毫秒增加到 6.5 毫秒。 但是,在节点完全离线的情况下,延迟几乎不会达到 5.875 毫秒。

总结一下我们对该系统的测试,我们发现它可以轻松处理 ROBO 部署给它带来的负载。 这个很重要; 这些类型的部署应该更少地担心像这样的系统的性能,而更多地担心长期操作。 对于第一点,Dell Technologies 已将这些 AX 节点设计到性能基本上无关紧要的水平。 我们的所有测试都验证了即使是激进的 SQL Server 工作负载也能毫无问题地被吸收。

如果 ROBO HCI 用例的性能得到有效解决,则组织需要转向第 2 天运营。 此处 Dell EMC AX 节点真正开始脱离,从持续管理的角度来看,与 WAC 集成以进行集群更新至关重要。 在 Azure Stack HCI 方面,Dell Technologies 无疑是这方面的领导者。 最后,组织应该关注系统弹性。 由于只有两个节点并且在许多情况下没有直接的现场支持,因此正常运行时间对业务至关重要。 在我们对几个降级状态的测试中,AX 节点没有中断地继续运行,这意味着办公室将保持在线,而不会影响应用程序性能。 部署 Azure Stack HCI 的方法有很多种,但没有比 Dell Technologies 使用 AX 节点带来的更全面的解决方案了。

查看信息图

Dell EMC Azure Stack HCI 解决方案

本报告由 Dell Technologies 赞助。 本报告中表达的所有观点和意见均基于我们对所考虑产品的公正看法。