🤒 👨🏾‍🎓 🛁 AERODISK ENGINE N2储存碰撞测试，强度测试 🐪 👩🏿‍🤝‍👩🏾 🃏

大家好！通过这篇文章，AERODISK在Habré上打开了一个博客。同志们，万岁！

在先前有关Habr的文章中，考虑了有关存储系统的体系结构和基本配置的问题。在本文中，我们将考虑一个以前没有涉及但经常被问到的问题-有关AERODISK ENGINE存储系统的容错能力。我们的团队将尽一切努力使AERODISK存储系统停止工作，即打破她

碰巧的是，有关我们公司历史，我们的产品以及成功实施的例子的文章已经挂在哈布雷（Habré）上，这要归功于我们的合作伙伴-TS Solution和Softline公司。

因此，我不会在这里培训复制粘贴管理技能，而只是提供这些文章的原始链接：

我也想分享好消息。但是，我当然将从问题开始。作为一个年轻的供应商，除其他成本外，我们始终面临着这样的事实，即许多工程师和管理人员非常老实，不知道如何正确操作我们的存储系统。
显然，从管理员的角度来看，大多数存储系统的管理看起来几乎相同，但是每个制造商都有其自己的特征。我们也不例外。

因此，为了简化培训IT专业人员的任务，我们决定在今年致力于免费教育。为此，我们正在俄罗斯的许多大城市中建立AERODISK能力中心网络，任何有兴趣的技术专家都将能够完全免费参加课程，并获得AERODISK引擎存储管理证书。

在每个功能中心，我们将安装来自AERODISK存储系统的完整演示台和一台物理服务器，老师将在该服务器上进行全日制培训。能力中心的工作时间表将在其出现时公布，但现在我们已经在下诺夫哥罗德开设了一个中心，而克拉斯诺达尔市则是下一个。您可以使用下面的链接注册培训。我带来了有关城市和日期的当前已知信息：

下诺夫哥罗德 （已经工作-您可以在这里注册https://aerodisk.promo/nn/ ）;
在2019年4月16日之前，您可以在任何工作时间访问中心，并且将在2019年4月16日组织一次大型培训课程。
克拉斯诺达尔 （即将推出-在这里注册https://aerodisk.promo/krsnd/ ）；
从2019年4月9日至4月25日，您可以在任何工作时间访问中心，并且将在2019年4月25日组织一次大型培训课程。
叶卡捷琳堡 （即将开业，请按照我们网站或Habré上的信息）；
2019年5月至6月。
新西伯利亚 （按照我们的网站或哈布雷的相关信息）；
2019年十月
克拉斯诺亚尔斯克 （遵循我们网站或Habré上的信息）；
2019年十一月

而且，当然，如果莫斯科离您不远，那么您随时可以访问我们在莫斯科的办公室并接受类似的培训。

仅此而已。与行销捆绑，去技巧！

在Habré，我们将定期发布有关产品，压力测试，比较，使用功能和有趣的实现的技术文章。

AERODISK ENGINE N2储存碰撞测试，强度测试

阿雄！ 看完这篇文章后，您可以说：好吧，供应商当然会检查自己，以便一切都正常进行，温室条件等。 我会回答：什么都没有！ 与我们的外国竞争对手不同，我们在您附近，您可以随时来我们这里（在莫斯科或任何中央委员会），以任何方式测试我们的存储系统。 因此，将结果调整为理想的世界图片没有太大意义，因为 我们很容易检查。 对于那些懒惰而又没有时间的人，我们可以组织远程测试。 我们为此有一个特殊的实验室。 联系方式。

ACHTUNG-2！ 此测试不是负载测试，因为 这里我们只关心容错。 几周后，我们将准备一个功能更强大的支架，并进行存储系统的负载测试，并在此处发布结果（顺便说一下，接受测试的愿望）。

所以，让我们休息一下。

试验台

我们的展位由以下铁组成：

1个Aerodisk Engine N2存储（2个控制器，64GB缓存，8个FC端口8Gb / s，4个以太网端口10Gb / s SFP +，4个以太网端口1Gb / s）; 存储系统中安装了以下磁盘：
4 x SAS SSD光盘900 GB;
12个SAS 10k驱动器1.2 TB;
1个具有Windows Server 2016的物理服务器（2个Xeon E5 2667 v3、96 GB RAM，2个FC端口8Gb / s，2个以太网端口10Gb / s SFP +）;
2个SAN 8G交换机;
2个LAN 10G交换机;

我们通过FC和以太网10G通过交换机将服务器连接到存储。下面的展位图。

Windows Server上安装了必需的组件，例如MPIO和iSCSI启动器。
在FC交换机上配置区域，在LAN交换机上配置相应的VLAN，并且在存储端口，交换机和主机上安装了MTU 9000（如何完成所有操作在我们的文档中进行了描述，因此在此不再描述此过程）。

测试方法

碰撞测试计划如下：

FC和以太网端口故障检查。
电源故障检查。
检查控制器故障。
检查组/池中的磁盘故障。

所有测试将在合成负载条件下进行，这将由IOMETER生成。同时，我们将执行相同的测试，但条件是将大文件复制到存储系统。

IOmeter配置如下：

读/写-70/30
区块-128k（我们决定用大区块弄湿存储系统）
线程数为128（与工作量非常相似）
全随机
员工人数-4（FC为2，iSCSI为2）

该测试具有以下任务：

确保合成负载和复制过程不会中断，并且不会因各种故障模式而导致错误。
确保切换端口，控制器等的过程是充分自动化的，并且在发生故障的情况下（即，当然，对于故障转移，也没有谈论故障回复），不需要管理员采取任何措施。
确保信息在日志中正确显示。

主机和存储准备

我们使用FC和以太网端口（分别为FC和iSCSI）在存储上配置了块访问。 TS Solution的工作人员在上一篇文章（ https://habr.com/en/company/tssolution/blog/432876/ ）中对此进行了详细描述。好吧，当然，没有人取消手册和课程。

我们使用我们拥有的所有驱动器建立了一个混合组。将2个SSD磁盘添加到缓存中，并添加2个SSD磁盘作为附加存储级别（在线层）。我们将12个SAS10k磁盘分组为RAID-60P（三重奇偶校验），以便一次检查一个组中三个磁盘的故障。剩下一张磁盘用于自动更正。

我们连接了两个LUN（一个在FC上，一个在iSCSI上）。

两个LUN均由Engine-0控制器拥有。

开始测试

使用上面的配置打开IOMETER。

我们将带宽固定为1.8 GB / s，延迟为3毫秒。没有错误（总错误计数）。

同时，从主机的本地驱动器“ C”，我们开始使用其他接口将两个100GB的大文件复制到FC和iSCSI LUN存储（Windows中的驱动器E和G）。

上面是复制到LUN FC的过程，下面是iSCSI。

测试编号1.禁用I / O端口

我们接近存储系统的背面））），然后轻轻一按，从Engine-0控制器中拔出所有FC和以太网10G电缆。仿佛一位拖把的清洁女工过去了，决定洗地板。撒鼻电缆在铺设（即控制器仍在工作，但I / O端口已失效）。

我们来看一下IOMETER和文件复制。带宽降至0.5 GB / s，但很快就恢复到以前的水平（大约4-5秒）。没有错误。

复制文件并没有停止，速度有所下降，但这是完全不重要的（从840 MB / s下降到720 MB / s）。复制没有停止。

我们查看存储系统的日志，并看到有关端口不可用和组自动移动的消息。

此外，仪表板还告诉我们，使用FC端口时，一切都不尽人意。

存储I / O端口成功失败。

测试编号2。禁用存储控制器

几乎立即（将电缆重新插入存储系统后），我们决定通过将控制器从机箱中拉出来完成存储。

再次，我们从后面访问存储系统（我们很喜欢）），这一次我们拔出了Engine-1控制器，该控制器此时是RDG的所有者（该小组搬到了那里）。

IOmeter中的情况如下。输入输出停止约5秒钟。错误不会累积。

5秒后，以大约相同的吞吐率恢复I / O，但是延迟了35毫秒（大约两分钟后纠正了延迟）。从屏幕截图可以看出，Total error count的值为0，即没有写入或读取错误。

我们着眼于复制文件。如您所见，它并没有中断，性能有所下降，但是总的来说，一切恢复到相同的〜800 MB / s。

我们转到存储系统，然后在信息面板中看到滥用信息，表明Engine-1控制器不可用（当然，我们将其撞开了）。

我们还在日志中看到类似的条目。

存储控制器的故障也已成功解决。

测试编号3.断开电源。

以防万一，我们再次开始复制文件，但IOMETER并未停止。
我们拉BP-Schnick。

另一个警报已添加到信息面板的存储中。

我们还在传感器菜单中看到与拔出的电源关联的传感器变为红色。

SHD继续工作。从主机的角度来看，BP-Schnick的故障不会以任何方式影响存储系统的运行，复制速度和IOMETER指示器保持不变。

电源故障测试成功完成。

在最终测试之前，我们决定让SHD重新焕发活力，重新安装控制器和BP-shnik，并通过电缆使一切正常，SHD在其运行状况面板中通过绿色图标愉快地通知了我们。

测试编号4。该组中的三个磁盘出现故障

在此测试之前，我们执行了附加的准备步骤。事实是ENGINE存储提供了非常有用的东西-不同的重建（rebuild）策略。以前，TS解决方案曾撰写过有关此功能的文章，但请回顾其实质。存储管理员可以在重建期间指定资源分配的优先级。还是朝着I / O性能的方向，即更长的重建时间，但是没有性能下降。还是朝着重建速度的方向发展，但是性能会降低。或均衡的选择。由于磁盘组重建期间的存储性能始终使管理员感到头疼，因此我们将在I / O性能方向和不利于重建速度的偏见下测试该策略。

现在检查驱动器的故障。 我们还启用对LUN（文件和IOMETER）的记录。由于我们具有三重奇偶校验组（RAID-60P），这意味着系统必须承受三个磁盘的故障，并且在故障之后它必须能够自动替换，一个磁盘必须位于RDG中以代替故障磁盘之一，并且重建应该在该磁盘上开始。

我们开始。首先，通过存储界面，突出显示我们要拉出的磁盘（以免丢失并且不拉出自动替换磁盘）。

检查熨斗上的指示。一切正常，我们看到突出显示的三个驱动器。

并拔出这三张光盘。

我们看房东。而且……没有什么特别的事情发生。

当拉动磁盘并开始重建时，复制指示器（它们比开始时要高，因为高速缓存已预热）和IOMETER不会有太大变化（在5-10％之内）。

我们看看存储。

以小组的身份，我们看到重建过程已经开始，并且即将完成。

RDG框架显示2个磁盘处于红色状态，并且其中一个已被替换。自动更正磁盘不再存在，它替换了第三个故障磁盘。 Rebild执行了几分钟，当3个磁盘出现故障时文件记录没有中断，I / O性能没有太大变化。

驱动器故障测试肯定已经成功。

结论

为此，我们决定停止滥用存储系统。总结一下：

FC端口故障检查-成功
以太网端口故障检查-成功
控制器故障检查-成功
电源故障检查-成功
检查组\池中的磁盘故障-成功

没有任何故障会停止录制，也不会引起合成负载错误，当然会降低性能（并且我们知道如何克服这个问题，我们很快就会做到），但是考虑到这是几秒钟，这是可以接受的。结论：所有AERODISK存储组件的容错性都在该级别上工作，没有故障点。

显然，在一篇文章的框架内，我们无法测试所有的失败情况，但我们尝试涵盖最受欢迎的情况。因此，请发送您的评论，对以下出版物的祝愿，以及适当的批评。我们很乐意讨论（最好是参加培训，以防万一，重复时间表）！直到进行新的测试！

下诺夫哥罗德 （已经工作-您可以在这里注册https://aerodisk.promo/nn/ ）;
在2019年4月16日之前，您可以在任何工作时间访问中心，并且将在2019年4月16日组织一次大型培训课程。
克拉斯诺达尔 （即将推出-在这里注册https://aerodisk.promo/krsnd/ ）；
从2019年4月9日至4月25日，您可以在任何工作时间访问中心，并且将在2019年4月25日组织一次大型培训课程。
叶卡捷琳堡 （即将开业，请按照我们网站或Habré上的信息）；
2019年5月至6月。
新西伯利亚 （按照我们的网站或哈布雷的相关信息）；
2019年十月
克拉斯诺亚尔斯克 （遵循我们网站或Habré上的信息）；
2019年十一月

AERODISK ENGINE N2储存碰撞测试，强度测试

AERODISK ENGINE N2储存碰撞测试，强度测试

试验台

测试方法

主机和存储准备

开始测试

测试编号1.禁用I / O端口

测试编号2。禁用存储控制器

测试编号3.断开电源。

测试编号4。该组中的三个磁盘出现故障

结论

More articles: