Reduza os riscos de inatividade com a arquitetura Shared Nothing

O tópico tolerância a falhas em sistemas de armazenamento de dados é sempre relevante, porque em nosso século de virtualização e consolidação onipresente de recursos de armazenamento, o armazenamento é o link cuja falha levará não apenas a um acidente comum, mas a longos períodos de inatividade dos serviços. Portanto, os sistemas de armazenamento modernos incorporam muitos componentes duplicados (até controladores). Mas essa proteção é suficiente?




Absolutamente todos os fornecedores, listando as características dos sistemas de armazenamento, sempre mencionam a alta tolerância a falhas de suas soluções, sem falhas, adicionando o termo "sem um único ponto de falha". Dê uma olhada em um sistema de armazenamento típico. Para eliminar o tempo de inatividade do serviço, fontes de alimentação, módulos de refrigeração, portas de E / S, unidades (ou seja, RAID) e, é claro, controladores são duplicados no sistema de armazenamento. Se você olhar atentamente para essa arquitetura, notará pelo menos dois pontos de falha em potencial, que são modestamente silenciosos sobre:


  1. A presença de um único backplane (backplane)
  2. Uma cópia dos dados

Backplein é um dispositivo tecnicamente sofisticado que deve passar por testes rigorosos na produção. E, portanto, há casos extremamente raros quando falha completamente. No entanto, mesmo em caso de mau funcionamento parcial, como um slot de unidade que não está funcionando, será necessário substituí-lo pelo armazenamento completamente desligado.


Criar várias cópias dos dados também não é um problema à primeira vista. Assim, por exemplo, a funcionalidade Clone em sistemas de armazenamento, que permite atualizar uma cópia completa dos dados com alguma periodicidade, é bastante difundida. No entanto, em caso de problemas com o mesmo backplane, a cópia ficará tão inacessível quanto o original.


Uma solução completamente óbvia para superar essas deficiências é a replicação para outro sistema de armazenamento. Se fecharmos os olhos para a duplicação esperada esperada do custo do hardware (no entanto, presumimos que as pessoas que escolhem tal solução pensem e aceitem adequadamente esse fato com antecedência), ainda haverá possíveis despesas para organizar a replicação na forma de licenças, software e hardware adicionais. E o mais importante - você precisa garantir a consistência dos dados replicados. I.e. crie virtualizador de armazenamento / vSAN / etc., o que também requer recursos de dinheiro e tempo.


O AccelStor, ao criar seus sistemas de alta disponibilidade, decidiu se livrar das desvantagens acima. Portanto, houve uma interpretação da tecnologia Shared Nothing, que em uma tradução livre significa "sem o uso de dispositivos comuns".


O conceito de arquitetura Shared Nothing é o uso de dois nós independentes (controladores), cada um com seu próprio conjunto de dados. Entre os nós, a replicação síncrona através da interface InfiniBand 56G é totalmente transparente para o software em execução no sistema de armazenamento. Como resultado, não é necessário o uso de virtualizadores de armazenamento, agentes de software etc.


Fisicamente, a solução de duas soluções AccelStor pode ser implementada em dois modelos:


  • H510 - baseado em servidores Twin em um pacote de 2U, se for necessário desempenho e capacidade moderados de até 22 TB;
  • H710 - baseado em servidores 2U separados, se for necessário alto desempenho e alta capacidade (até 57 TB).


Modelo de servidor duplo H510



Modelo H710 baseado em servidores separados


O uso de diferentes fatores de forma deve-se à necessidade de um número diferente de SSDs para atingir um determinado volume e desempenho. Além disso, a plataforma Twin é mais barata e permite oferecer soluções mais acessíveis, embora com algumas "desvantagens" condicionais na forma de um único backplane. Tudo o resto, incluindo os princípios de operação, é completamente idêntico para os dois modelos.


O conjunto de dados para cada nó tem dois grupos FlexiRemap , mais 2 hot spare. Cada grupo é capaz de suportar a falha de um SSD. De acordo com a ideologia, o FlexiRemap reconstrói todas as solicitações recebidas para gravar um nó em cadeias seqüenciais com blocos de 4KB, que são gravados no SSD no modo mais confortável para eles (gravação sequencial). Além disso, o host confirma o registro somente após a colocação física de dados no SSD, ou seja, sem cache na RAM. O resultado é um desempenho impressionante de até 600K IOPS para escrita e 1M + IOPS para leitura (modelo H710).


Como mencionado anteriormente, a sincronização do conjunto de dados ocorre em tempo real através da interface InfiniBand 56G, que possui alta largura de banda e baixa latência. Para maximizar o uso do canal de comunicação ao transmitir pacotes pequenos. Porque existe apenas um canal de comunicação; para uma verificação de pulso adicional, é usado um link de 1 GbE dedicado. Somente a pulsação é transmitida por ele, portanto, não há requisitos para características de velocidade.


Se a capacidade do sistema for aumentada (até 400 + TB) devido às prateleiras de expansão, elas também serão conectadas em pares para atender ao conceito "sem um único ponto de falha".


Para proteção adicional de dados (além do fato de o AccelStor já possuir duas cópias), um algoritmo especial de comportamento é usado em caso de falha de qualquer SSD. Se o SSD falhar, o nó começará a reconstruir os dados em uma das unidades hot spare. Um grupo FlexiRemap que esteja em um estado degradado entrará no modo somente leitura. Isso é feito para eliminar a interferência das operações de gravação e reconstrução no disco de backup, o que acaba acelerando o processo de recuperação e reduzindo o tempo em que o sistema está potencialmente vulnerável. Após a conclusão da reconstrução, o nó volta ao modo normal de leitura e gravação.



Obviamente, como em outros sistemas, durante a reconstrução, o desempenho geral diminui (afinal, um dos grupos FlexiRemap não funciona na gravação). Mas o processo de recuperação em si é o mais rápido possível, o que distingue os sistemas AccelStor das soluções de outros fornecedores.


Outro recurso útil da tecnologia Nothing Shared é a operação de nós no chamado modo ativo-ativo verdadeiro. Diferente da arquitetura “clássica”, onde apenas um controlador possui um volume / pool específico e o segundo simplesmente realiza operações de entrada / saída, nos sistemas AccelStor , cada nó trabalha com seu próprio conjunto de dados e não transmite solicitações ao “vizinho”. Como resultado, o desempenho geral do sistema é aprimorado devido ao processamento paralelo de solicitações de entrada / saída por nós e acesso às unidades. Além disso, na verdade não existe failover, porque você simplesmente não precisa transferir o controle de volume para outro nó no caso de uma falha.


Se compararmos a tecnologia da arquitetura Nothing Shared com a duplicação total de armazenamento, então, à primeira vista, será um pouco inferior à implementação completa da recuperação de desastre na flexibilidade. Isto é especialmente verdade na organização da linha de comunicação entre sistemas de armazenamento. Portanto, no modelo H710, é possível espalhar os nós a uma distância de 100m devido ao uso de cabos ópticos ativos InfiniBand não tão baratos. Porém, mesmo se comparada à implementação usual de replicação síncrona de outros fornecedores através do FibreChannel disponível, mesmo a distâncias maiores, a solução do AccelStor será mais barata e fácil de instalar / operar, como não é necessário instalar virtualizadores de armazenamento e / ou integrar com software (o que está longe de ser sempre possível em princípio). Além disso, não esqueça que as soluções AccelStor são matrizes All Flash com desempenho superior ao dos sistemas de armazenamento “clássicos” apenas com SSD.



Ao usar a tecnologia Nothing Shared da AccelStor, é realista obter uma disponibilidade do sistema de armazenamento de 99,9999% por um custo bastante razoável. Juntamente com a alta confiabilidade da solução, inclusive através do uso de duas cópias de dados, e o desempenho impressionante graças aos algoritmos proprietários FlexiRemap , as soluções AccelStor são excelentes candidatos para posições-chave na construção de um data center moderno.

Source: https://habr.com/ru/post/pt441780/


All Articles