Home Uncategorized ROBO HCI复原能力和群集管理的重要性

ROBO HCI复原能力和群集管理的重要性

by Tom Fenton

在小型办公室和远程/分支办公室(ROBO)环境中,计算资源的部署和持续管理一直是个问题,有许多不同的竞争因素要考虑。许多企业和中小型企业(SMB)依靠ROBO HCI系统来处理日常的关键业务交易,而这些交易是这些组织的命脉。这些系统要求成本低,但又具有高性能,提供冗余,组件数量要尽可能少,维护良好,但每个站点又没有专属的昂贵IT资源和人员。

适用于微软Azure Stack HCI的戴尔易安信解决方案

在小型办公室和远程/分支办公室(ROBO)环境中,计算资源的部署和持续管理一直是个问题,有许多不同的竞争因素要考虑。许多企业和中小型企业(SMB)依靠ROBO HCI系统来处理日常的关键业务交易,而这些交易是这些组织的命脉。这些系统要求成本低,但又具有高性能,提供冗余,组件数量要尽可能少,维护良好,但每个站点又没有专属的昂贵IT资源和人员。

幸运的是,IT供应商已经认识到了ROBO系统的独特挑战,并提出了应对这些挑战的解决方案。在本文中,我们将探讨运行微软软件的戴尔科技硬件如何应对这些挑战。我们的方案将与我们的常规文章有些不同。在常规文章中,我们通常侧重于系统性能。虽然我们将对系统进行性能测试,但我们也将从初始规模确定开始,对其整个生命周期进行考察。

ROBO HCI简介

本文中测评的系统是适用于微软Azure Stack HCI群集的戴尔易安信解决方案,其中包含2个运行Windows Server 2019 (2NC)的AX节点。今年早些时候,戴尔科技发布了专门为运行Azure Stack HCI而设计(带验证和认证)的AX节点。戴尔科技目前在其解决方案组合中提供了三种不同的节点类型:AX-640、AX-740xd和AX-6515。在这些节点中,每个型号都让客户能够通过配置不同组件,为其ROBO HCI部署设计理想的平台。

AX-640和AX-740xd节点是双插槽节点,使用第二代英特尔至强可扩展处理器,而AX-6515是单插槽节点,运行64核第二代AMD EPYC处理器。戴尔易安信的AX节点型号允许客户选择最适合其用例的节点。AX-640面向计算密集的工作负载,AX-740xd面向存储容量大的工作负载,而AX-6515则面向需要在企业数据中心实现价值优化系统和处理器多样化的用户。

Dell EMC Azure front angle

我们将在本文中详细探讨的系统是AX-640,这是一款双插槽1U节点,支持96到768GB的内存。它可以配置3到92TB的NVMe、SSD和/或HDD存储器,以创建混合或全闪存存储。它目前是AX产品组合中唯一支持英特尔超高性能傲腾持久内存和SSD设备的节点。如果配置得当,AX-640节点是最快商用HCI节点称号的有力竞争者。戴尔科技提供了一张简单明了的图表,概述了其AX节点的Azure Stack HCI配置选项。StorageReview-Dell-Azure-Stack1

本文将探讨的AX-640节点配备了双英特尔至强6230 CPU、384GB DDR4内存以及十个4TB NVMe SSD。

在部署ROBO HCI解决方案时,拥有可靠和性能出众的硬件只是故事的一半;另一半是软件。在本文中,我们将运行一个经Azure Stack HCI验证的系统。Azure Stack HCI允许客户运行Windows Server操作系统,并通过微软Windows Admin Center无缝连接到Azure云端以获得额外的服务(如备份和灾难恢复)。Azure服务通过同一管理平面中的WAC扩展进行集成。

Azure Stack HCI使用Hyper-V作为其管理程序,使用存储空间直通作为其本地存储器。在ROBO HCI部署中使用2NC可以大大降低实施成本。对于极其注重成本的实施,可以将其配置为2NC方式工作,无需为其存储结构单链路或双链路配置交换机。对于采用交换机的实施项目,10GbE网络即可工作。戴尔科技推荐使用25GbE存储网络,因为它的成本并不会比10GbE网络高太多。

显然,如果系统不可复原,减少公司在设备上的投资是不可能的。在每个系统上,存储空间直通支持双向和三向镜像以及单奇偶校验、双奇偶校验擦除编码。微软在描述这些不同保护方案的存储效率、一般优势和权衡方面做得非常好。我们推荐大家仔细阅读,以确定哪种方案最适合您的环境。镜像通常是性能最强的,这也是我们测试中使用的方案。

Azure Stack HCI可以使用嵌套双向镜像或嵌套镜像加速奇偶校验作为复原的一种选择。前者可提供更好的性能,后者可提供更高的数据效率。嵌套双向镜像针对主机上的数据和其他节点上的数据制作一个RAID 1副本。嵌套镜像加速奇偶校验在每台服务器上制作一份数据副本,但使用擦除编码方式,而不是RAID 1,以保证数据的复原能力(但最近的写入使用双向镜像,以确保可靠性)。嵌套双向镜像的数据效率为25%,因为数据的四份复本都会写入磁盘;相比之下,嵌套镜像加速奇偶校验的数据效率为33%到40%。

这两种方案都能够同时支持硬盘故障和服务器故障。

两种嵌套复原方案都不需要特殊的RAID硬件。

微软2NC拓扑需要一个作为中立第三方的见证,为幸存节点增加一票,以防止出现“分区”场景。您可以使用文件共享(我们在测试中使用的方法)或Azure云作为见证。如果群集的两个节点均有可靠的互联网连接,微软建议使用后者。Azure云见证是一个blob存储对象,而文件共享则是SMB文件共享。见证只包含见证日志文件。

ROBO HCI采购和部署

正如所承诺的,我们希望全面地了解如何在ROBO场景下采购、部署和管理AX节点群集需要哪些东西。

部署新系统时,第一步是确定系统规模。戴尔科技让客户可以通过Live Optics轻松计算出部署所需的设备。Live Optics是一项免费的在线工具,用于收集有关环境的存储、数据保护、服务器和文件系统的信息。虽然它在部署后24小时内就能深入了解环境,但您让Live Optics运行的时间越长,它对您正在运行的工作负载的特性就会有更好的了解。Live Optics可以从微软Windows、VMware vCenter或Linux/Unix服务器收集数据。

Live Optics仪表板将呈现有关整个环境的CPU、内存和存储使用情况的编译数据。所有这些数据将帮助您准确地了解您的环境中需要什么样的系统。如果您想让其他用户(如同事、VAR等)提出规模建议,您也可以与他们分享这些数据。

从Live Optics中收集的数据用于Azure Stack HCI规模确定工具。该工具可通过戴尔科技客户团队获取,内置了所有工程的最佳实践,不仅可以生成满足您当前需求的配置选项,而且也可以考虑到您未来的增长。

ROBO环境的其中一个问题就是寻找本地IT人才来进行设置和配置。完成这项工作的其中一种途径就是使用戴尔易安信的ProDeploy服务。这种方式可以帮助企业加快远程站点部署,这意味着系统可以立即上线并增加价值。另外,如果您拥有本地资源并希望自己部署,戴尔也有文档和脚本来指导您完成这一过程。

对于任何组织来说,最头疼的问题之一就是为系统提供支持。支持复杂系统的一大麻烦在于涉及到多个硬件和软件供应商。例如,您可能有一个供应商提供服务器和存储器,另一个供应商提供网络交换机,第三个供应商提供操作系统。戴尔易安信的ProSupport服务为HCI解决方案配备专门的支持人员,帮助简化了这一过程。这些支持工程师经过培训,对戴尔Azure Stack HCI系统的硬件和软件都很了解。如果需要,他们知道将问题上报给适当的人。

当我们在安装系统时无意中配置错误时,我们有机会求助于戴尔科技HCI解决方案的专属支持人员。与我们合作的支持工程师知识渊博,能够帮助我们走出困境。

AX节点日常管理

在完美的世界里,ROBO HCI部署根本不需要管理。但现实并不是这样,戴尔科技和微软提供了次优选择。当系统位于远程位置,仅有很少或没有本地IT支持时,拥有系统维护所需的工具就显得非常重要。戴尔科技使用Windows Admin Center (WAC)和一些面向自己IP的扩展,即适用于Windows Admin Center的戴尔易安信OpenManage Integration解决方案来实现这点。

WAC是一个基于浏览器的管理平台工具,用于管理Windows 10和Windows Server。它安装在客户系统上,通过Windows远程管理(WinRM)使用远程PowerShell和Windows Management Instrumentation (WMI)来监控和管理Windows系统和Azure Stack HCI群集。

WAC的概览窗格提供系统资源利用情况摘要和管理系统证书和设备所需的工具。WAC还允许您查看事件和进程,安装角色和功能,并管理本地用户和组、防火墙、服务和存储。

戴尔科技利用WAC的可扩展性,创建了与面向微软Windows Admin Center的戴尔易安信OpenManage Integration (OMIMSWAC)工具。这样做的目的是为了简化深度硬件监控和库存,协调BIOS、固件和驱动程序更新的过程。OMIMSWAC使用Windows Server 2019的群集感知更新功能来更新AX节点和Azure Stack HCI群集。要启动OMIMSWAC,请单击位于WAC功能区栏上的Dell EMC OpenManage Integration

启动WAC,单击“Settings”设置,然后单击“Extensions”扩展,在搜索文本框中输入Dell EMC,选择Dell EMC Open Manage Integration,然后单击安装,即可将OMIMSWAC添加到系统中。

我们可以使用OMIMSWAC来查看我们的群集,可以看到系统的健康状况,并深入到硬件查看其组件的库存以及它们所用的固件。

您甚至可以使用OMIMSWAC来启动iDRAC控制台,对AX节点进行带外管理。

一旦发现了群集,就可以使用OMIMSWAC查看群集级节点的合规性报告。如果未在“Settings”中配置Dell EMC System Update (DSU)和Dell EMC Inventory Collector (IC),当运行OMIMSWAC的系统拥有互联网连接时,系统将自动从download.dell.com下载Dell EMC System Update (DSU)和Dell EMC Inventory Collector (IC)实用工具,以进行合规性检查和更新目标节点。

OMIMSWAC在完成常规任务(如更新)方面确实大放异彩。OMIMSWAC不仅会自动下载所需的Dell Update Packages (DUP),还会对群集进行滚动更新,以消除停机时间。

AX节点测试

当我们查看戴尔易安信的2节点HCI群集时,我们希望同时查看其性能和不同故障场景中的应用可用性。为此,我们配置了一个SQL Server性能测试,由平衡在我们的2节点群集上的多达8个运行Windows Server 2019的SQL Server 2019虚拟机组成。然后,每个SQL Server实例都被赋予一个1500规模的TPC-C数据库,其中的数据库和日志文件相当于每个实例350GB容量。这给我们提供了一个数据库存储占用情况,范围从4虚拟机1.4TB到8虚拟机2.8TB。我们使用Quest的Benchmark Factory作为这个项目的工作负载生成器,每个虚拟机有15000个虚拟用户进行交互。

每个虚拟机都被分配了8个虚拟CPU、60GB RAM及存储占用情况。我们的群集配置为每台主机384GB RAM,在我们的故障节点场景中,我们将虚拟机RAM分配降低到40GB,以适应单一主机上的所有8个虚拟机。

我们的四个数据库测试场景是:

  • 工作群集:共8个虚拟机,每个节点4个虚拟机
  • 一个节点上有1个故障SSD:共8个虚拟机,每个节点4个虚拟机
  • 一个故障节点:共8个虚拟机,每个节点4个虚拟机

在我们的第一次测试中,测量8个虚拟机的性能,每个节点上4个虚拟机,数字增加到平均5ms。

虽然强大的性能和低数据库延迟是很好的事情,但了解平台在不太理想条件下的表现同样重要。我们的第一个场景涵盖了平台如何应对SSD故障。我们启动了工作负载,在工作负载刚刚稳定后,我们马上从一个节点上拔出一块SSD。在这种情况下,性能从正常情况下的5ms略微放缓到6.5ms。

我们的第二个场景测试的是,如果一个节点离线维护,群集将如何运行,或者如果一个节点故障,任务将如何运行。在这两种情况下,一切都会回到只有一个节点的状态。尽管有一个微妙的优势,即没有流量通过后端网络,但区别不大。在这种情况下,我们测得的平均延迟为5.875ms。

写在最后

我们看到越来越多的人对2NC在ROBO中的应用感兴趣。公司正在寻找价格合理、性能可靠且只需要与IT人员进行最低限度互动的系统,因为获取这些IT资源可能是个难题。面向Azure Stack HCI的戴尔易安信解决方案满足了所有这些要求。

AX nodes Intel SSD

我们研究了正确地确定2NC ROBO HCI系统的规模、获取和设置的途径。戴尔科技给我们留下了深刻的印象,因为它让一切变得如此简单。在了解完初始系统设置后,我们又看了维护系统所需的工作,WAC使这一过程变得如此简单,再次给我们留下了深刻的印象。然而,真正让我们震惊的是戴尔科技的OMIMSWAC集成,因为它对我们的系统进行了滚动升级,涵盖了从固件到上层的所有内容,几乎不需要操作员的互动。这是戴尔科技的一个最根本的与众不同之处,因为这种深度集成对于Azure Stack HCI提供商来说是独一无二的。

当我们在系统上运行基准测试时,我们发现在最佳条件下,应用工作负载性能强劲。我们的SQL Server TPC-C工作负载在4个均匀放置在群集中的1500规模虚拟机上测得的数据为2.25ms,当工作负载增加到8个虚拟机时,测得数据为5ms。不过,更令人印象深刻的是,在一个SSD发生故障或只有一个节点运行的情况下,群集的表现。在第一种情况下,有一个SSD故障,我们的8虚拟机工作负载延迟从5ms增加到6.5ms。不过在一个节点完全离线的情况下,延迟几乎没有超过5.875ms。

总结我们在这个系统上的测试,我们发现它可以轻松处理ROBO部署会给它带来的负载。这一点很重要,这类部署对系统性能的担忧较少,更多的是担心长期运行。对于第一点,戴尔科技已经将这些AX节点设计到了基本无需担心性能问题的级别。即使是激进的SQL Server工作负载也能毫无问题地被吸收,我们所有的测试都验证了这点。

如果有效解决了ROBO HCI用例的性能问题,那么企业就需要转向第2天的操作。这才是戴尔易安信AX节点真正开始拉开距离的地方。从持续管理的角度来看,与WAC集成来进行群集更新是至关重要的。在Azure Stack HCI方面,戴尔科技显然独领风骚。最后,企业应该关注系统的复原能力。由于只有两个节点,而且在许多情况下没有即时的现场支持,正常运行时间对业务至关重要。在我们对几种降级状态的测试中,AX节点在没有中断的情况下坚守岗位,这意味着办公室始终保持在线,不会对应用性能造成影响。部署Azure Stack HCI的方法有很多,但没有比戴尔科技的AX节点更全面的解决方案了。