如今,在IT基础架构中,随着虚拟化的广泛使用,存储系统已成为存储所有虚拟机的核心。 该节点的故障能够完全停止数据中心的工作。 尽管服务器设备的很大一部分具有“默认”形式的容错功能,但正是由于数据中心内存储系统的特殊作用,使得它们对“生存能力”的要求提高了。
确保IT容错能力最有效的方法是使用多个设备和软件实例(最简单的情况是重复)。 当然,存储可以完全复制。 对于灾难恢复,这正是所使用的方法。 但是,并非所有公司都能负担得起这样的解决方案。 这不仅是设备成本的两倍,而且是组织这种解决方案及其进一步支持所需的其他成本。
但是,设备重复的可能性并不能消除确保组件级别的容错能力的需要。 特别是,冗余适用于电源,冷却模块,驱动器,当然还有控制器的存储系统。 所有这些早已变得司空见惯。 如果不使用类似的设计,很难找到存储。 Qsan也不例外。 但是,我们想在本文中讨论尚未立即发现的内容,同时,它的主要目的是提高整个系统的容错能力。
散热模块
在带有2U-3U机箱的存储系统中 ,通常会使用组合模块来组合电源和风扇。 一方面,这很方便,因为 只需要维修一台。 另一方面,如果冷却系统出现故障,则可能会强行关闭电源以避免过热。 似乎不会出现最严重的情况,但是显然不值得增加存储漏洞。
Qsan存储系统中的冷却以独立模块的形式进行组织,并带有“热”替代部件,与电源无关。 实际上,电源设备具有自己的风扇,旨在驱动PSU本身。 冷却模块容纳两个相互独立的风扇。 存储系统中有两个这样的模块:右侧和左侧-用于使所有组件高效通风。 如果其中一个风扇出现故障,则所有其他风扇都会自动提高其速度,以补偿由此导致的气流不足。 因此,风扇故障不会带来整个设备过热的风险。
扩展架连接拓扑
将扩展架连接到存储的经典方案意味着称为级联的拓扑。 在这种情况下,相应的机架和存储控制器通过一条SAS电缆互连。 总共获得2条用于双控制器系统的电缆。 如果要连接第二个,则以相同的方式将其连接到第一个机架。 依此类推。 这种拓扑的优点是易于在设备中实现。 由于未连接的存储控制器和机架的交叉故障或由于链中间的一个扩展机架的停电,SAS电路突然中断的缺点将是一些弱点。 如果在某些情况下“散布” RAID组,其结果将是失去对部分驱动器的访问权限,并可能导致RAID组崩溃。
对于跨控制器故障,Qsan可以通过存储背板以控制器之间的内部逻辑通信的形式提供保护。 即 存储控制器不仅可以看到直接与其相连的JBOD控制器,而且还可以通过背板中的特殊链接看到“邻居”控制器。 结果,如果发生这种情况,并且没有人物理上拔出存储系统和机箱之间的SAS电缆,那么将保留对所有驱动器的访问。
为了保护SAS电路免受例如由于扩展架断电而引起的断开的影响,通常使用不同的连接拓扑-反向级联。 在这种情况下,存储系统将立即连接到链中的第一个和最后一个架子,从而可以从两侧访问驱动器。
如果需要更强的保护,则可以使用例如树的拓扑结构大规模构建配置。 否则通过上述拓扑的组合而变得复杂。 由于设备上的SAS连接器数量众多(每个存储控制器2个,每个JBOD控制器5个),并且可以自动检测输入/输出操作模式,因此这是可能的。 最主要的是管理员自己不要感到困惑。 并且存储系统将能够正确配置配置。
快速重建
系统中热备用磁盘的可用性大大提高了信息存储的可靠性。 但是,仅分配了这样的磁盘并不意味着绝对的保护。 事实是,恢复过程(重建)非常耗时,而且常常很耗时。 复杂性源于对主数据的持续访问。 即 该系统以及当前的工作还必须将数据复制到新磁盘上。 重建的持续时间直接取决于驱动器的容量及其速度特性。 由于系统对实际占用的磁盘空间一无所知,因此在重建过程中,它仅复制所有内容:逐块复制。
结果,在存储系统上承受沉重负载的情况下,恢复10 TB以上的现代大容量磁盘很容易就需要一周或更长时间。 您还应记住以下事实:在重建期间,其他驱动器发生故障的可能性由于其负载增加而大大增加。 在使用例如RAID5的情况下,这已经构成了严重的危险。
作为此问题的解决方案,许多存储开发人员都在关注加快恢复过程。 可以使用不同的方法,但是本质是相同的-在重建期间仅复制真正占用的块。 Qsan并未抛开这个问题。 在该供应商的存储系统中,激活“ 快速重建”选项后,系统会跟踪用于记录的块,从而能够在磁盘出现故障的情况下仅将其复制到新驱动器。
创建新卷时,默认情况下默认不启用“快速重建”选项,因为 它的使用会影响性能,尤其是对于随机写入操作,因为:
- 有必要在块中跟踪记录;
- 重建时,不会重新计算未分配空间的校验和,因此,在对该区域进行新输入时,首先需要对其进行“初始化”。
因此,不建议对卷使用快速重建,例如,对于高负载数据库或视频监视系统中的卷仍将100%充满的情况。 但是对于文件或邮件服务器,此选项将非常有用。
而不是结论
每个存储制造商都暗示其设备是可靠的。 而且,如果在设备开发过程中没有致命的错误估算,并且在生产和测试过程中对节省成本有不可思议的渴望,那么总的来说,我们可以与供应商达成一致。 但是,您需要了解:
- 首先,存储系统的基本容错能力是在任何组件出现故障的情况下继续访问数据的一种方法;
- 关于容错的其他选项(例如上述容错)是消除某些类型的故障并增加访问数据的机会;
- las,不会发生100%的可靠性。 但是,为了尽可能接近它,大多数理智的存储供应商(包括Qsan )都竭尽全力不断改进其硬件和软件产品。
同时,不要忘记,存储系统的绝对可靠性不会取消备份副本的可用性,发生事故时制定清晰的演练恢复计划以及为供应商提供操作技术支持。