Hoje, na infraestrutura de TI, com o amplo uso da virtualização, os sistemas de armazenamento são o núcleo que armazena todas as máquinas virtuais. A falha desse nó é capaz de parar completamente o trabalho do data center. Embora uma parte considerável do equipamento do servidor tenha tolerância a falhas de uma forma ou de outra "por padrão", é precisamente devido ao papel especial dos sistemas de armazenamento no data center que eles aumentaram os requisitos em termos de "capacidade de sobrevivência".
O método mais eficaz para garantir a tolerância a falhas em TI é o uso de várias instâncias de equipamentos e software (no caso mais simples, duplicação). Obviamente, o armazenamento pode ser totalmente duplicado. E para a recuperação de desastres, essa é exatamente a abordagem usada. Mas nem todas as empresas podem pagar essa solução. Não se trata apenas do dobro do custo do equipamento, mas também de outros custos para a organização dessa solução e seu suporte adicional.
No entanto, a possibilidade de duplicação de equipamentos não elimina a necessidade de garantir tolerância a falhas no nível do componente. Em particular, a redundância é aplicada aos sistemas de armazenamento para fontes de alimentação, módulos de refrigeração, unidades e, é claro, controladores. Tudo isso há muito se tornou comum. É difícil encontrar armazenamento sem usar um design semelhante. Qsan aqui não é excepção. Mas queremos falar neste artigo sobre o que não é imediatamente evidente e, ao mesmo tempo, visa principalmente aumentar a tolerância a falhas do sistema como um todo.
Módulos de refrigeração
Muitas vezes, em sistemas de armazenamento com gabinetes 2U-3U, são utilizados módulos combinados que combinam fontes de alimentação e ventiladores. Por um lado, é conveniente porque Apenas uma unidade precisa de manutenção. Por outro lado, se o sistema de refrigeração falhar, a fonte de alimentação poderá ser desligada à força para evitar superaquecimento. E parece que não será a situação mais crítica, mas obviamente não vale a pena adicionar vulnerabilidades de armazenamento.
O resfriamento nos sistemas de armazenamento Qsan é organizado na forma de módulos separados com uma substituição "quente", independente das fontes de alimentação. Na verdade, as fontes de alimentação têm seus próprios ventiladores, projetados para explodir o próprio PSU. O módulo de refrigeração acomoda dois ventiladores independentes que se seguram. Existem dois módulos no sistema de armazenamento: à direita e à esquerda - para um fluxo de ar eficiente de todos os componentes. Se um dos ventiladores falhar, todos os outros aumentam sua velocidade automaticamente para compensar a resultante falta de fluxo de ar. É por isso que o mau funcionamento do ventilador não implica o risco de superaquecimento de todo o dispositivo.
Topologia de conexão da prateleira de extensão
O esquema clássico para conectar prateleiras de expansão ao armazenamento significa uma topologia chamada cascata. Nesse caso, os controladores de prateleira e armazenamento correspondentes são interconectados por um único cabo SAS. No total, são obtidos 2 cabos para um sistema de controlador duplo. Se você deseja conectar o segundo, ele será conectado da mesma maneira à primeira prateleira. E assim por diante A vantagem dessa topologia é a facilidade de implementação em equipamentos. E o menos terá alguma vulnerabilidade a uma interrupção repentina no circuito SAS devido à falha cruzada de controladores e prateleiras desconectadas ou devido a um blecaute de uma das prateleiras de expansão no meio da cadeia. O resultado será a perda de acesso a parte das unidades e um possível colapso do grupo RAID se ele estiver "espalhado" em vários casos.
De falhas entre controladores, o Qsan tem proteção na forma de comunicação lógica interna entre controladores através do backplane de armazenamento. I.e. o controlador de armazenamento vê não apenas o controlador JBOD diretamente conectado a ele, mas também o controlador “vizinho” através de um link especial no backplane. Como resultado, se tal situação ocorrer e ninguém puxar fisicamente os cabos SAS entre o sistema de armazenamento e a prateleira, o acesso a todas as unidades será preservado.
Para proteger o circuito SAS da quebra, por exemplo, devido à desenergização da plataforma de expansão, geralmente é usada uma topologia de conexão diferente - a cascata reversa. Nesse caso, o sistema de armazenamento é conectado imediatamente à primeira e à última prateleira da cadeia, obtendo acesso às unidades de ambos os lados.
Se você deseja uma proteção mais forte, poderá criar configurações em uma escala maior, usando, por exemplo, a topologia da árvore. Ou então complique com uma combinação das topologias mencionadas. Isso é possível devido ao grande número de conectores SAS nos dispositivos (2 para cada controlador de armazenamento e 5 para cada controlador JBOD) com detecção automática dos modos operacionais de entrada / saída. O principal é que o próprio administrador não está confuso. E o sistema de armazenamento poderá configurar corretamente a configuração.
Reconstrução rápida
A disponibilidade de discos de reposição de reposição no sistema aumenta significativamente a confiabilidade do armazenamento de informações. No entanto, apenas o fato de tais discos serem alocados não significa proteção absoluta. O fato é que o processo de recuperação (reconstrução) consome bastante tempo e geralmente consome muito tempo. A complexidade surge do acesso contínuo aos dados mestre. I.e. o sistema, juntamente com o trabalho atual, também deve copiar os dados para um novo disco. E a duração da reconstrução depende diretamente da capacidade do inversor e de suas características de velocidade. Como o sistema não sabe nada sobre o espaço em disco ocupado real, no processo de reconstrução, ele simplesmente copia tudo: bloco por bloco.
Como resultado, a restauração de um disco moderno de alta capacidade de 10 + TB com uma carga séria nos sistemas de armazenamento pode facilmente durar uma semana ou mais. Você também deve ter em mente que, durante a reconstrução, a probabilidade de falha de outras unidades aumenta significativamente devido ao aumento da carga nelas. E isso já pode representar um sério perigo no caso de usar, por exemplo, RAID5.
Como solução para esse problema, muitos desenvolvedores de armazenamento estão preocupados em acelerar o processo de recuperação. Diferentes abordagens podem ser usadas para isso, mas a essência é a mesma - copiar apenas blocos realmente ocupados durante a reconstrução. Qsan não se afastou desse problema. No sistema de armazenamento desse fornecedor, quando a opção Reconstrução Rápida é ativada, o sistema monitora os blocos usados para a gravação, podendo copiar apenas eles para uma nova unidade no caso de uma falha no disco.
A opção Reconstrução Rápida não está ativada por padrão ao criar novos volumes, como seu uso tem impacto no desempenho, especialmente em operações de gravação aleatória, porque:
- É necessário rastrear registros em blocos;
- Ao reconstruir, as somas de verificação não são recalculadas para o espaço não alocado; portanto, quando uma nova entrada é feita nessa área, é necessário primeiro “inicializá-la”.
Portanto, não é recomendável usar o Fast Rebuild para volumes, por exemplo, com bancos de dados altamente carregados ou em sistemas de vigilância por vídeo, nos quais o volume ainda estará 100% cheio. Mas para servidores de arquivos ou correio, essa opção será muito útil.
Em vez de uma conclusão
Cada fabricante de armazenamento implica que seus dispositivos são confiáveis. E se não houver erros de cálculo fatais no desenvolvimento de dispositivos e uma sede incrível de economia no processo de produção e teste, em geral, podemos concordar com o fornecedor. No entanto, você precisa entender:
- a tolerância básica a falhas dos sistemas de armazenamento é, antes de tudo, uma maneira de continuar a ter acesso aos dados em caso de falha de qualquer componente;
- opções adicionais relacionadas à tolerância a falhas (como as descritas acima) são a eliminação de certos tipos de mau funcionamento e o aumento das chances de acesso aos dados;
- 100% de confiabilidade, infelizmente, não acontece. Mas, para se aproximar o máximo possível, a maioria dos fornecedores de armazenamento sãos (e a Qsan entre eles) se esforçam para melhorar continuamente seus produtos, tanto em hardware quanto em software.
Ao mesmo tempo, não se deve esquecer que nenhuma confiabilidade absoluta dos sistemas de armazenamento não cancela a disponibilidade de cópias de backup, planos claros e ensaiados para recuperação em caso de acidente e suporte técnico operacional ao fornecedor.