Experiência no uso do Starwind VSAN e do EMC ScaleIO (VxFlexOS) + dicas para o armazenamento mini Enterprise (1 parte)

Às vezes, torna-se necessário organizar um armazenamento tolerante a falhas de pequenos volumes de armazenamento de até 20 TB, mas com a funcionalidade Enterprise - All-Flash, cache SSD, MPIO, HA (Activ-Activ) e tudo isso a um preço acessível. As soluções de hardware prontas com essas funções partem de centenas de terabytes e preços de 8 ou mais sinais em rublos. Ter um pequeno orçamento de 6-7 caracteres no rio. e a necessidade de um armazenamento pequeno e rápido (mas confiável), desde 2009 duas versões dos sistemas de armazenamento foram testadas e colocadas em operação comercial (o comum com esses sistemas é que eles são sistemas altamente confiáveis ​​sem um único ponto de falha + você pode tocá-los antes da compra ou "fazer sem ele" (GRÁTIS)).

Quem está interessado nessa experiência, será descrito a seguir:

  1. Experiência de software StarWind Virtual SAN (VSAN) .
  2. Como fazer um pequeno armazenamento corporativo.
  3. Histórico de overclocking de IOPS (prática).
  4. Dicas para a implantação e operação dos sistemas de armazenamento EMC ScaleIO (VxFlexOS) (na ausência de suporte técnico dos especialistas do “NOT Linux-guru”) 1 parte.

1. Experiência operacional Software StarWind Virtual SAN (VSAN)


StarWind Virtual SAN (VSAN) - na solução Activ-Activ (replicação síncrona em 3 servidores), em operação de 2009 a 2016 em diferentes edições (Starwind ISCSI SAN HA-3) com base em servidores com matrizes RAID de hardware.

Prós :

  • Fácil e rápido, nem mesmo instalado por um profissional;
  • MPIO sobre Ethernet iSCSI;
  • HA (Ativação-Ativação);
  • Em novos servidores (com garantia) (com novos discos), você pode esquecer a manutenção do armazenamento por vários anos (os usuários nem notam a falha de dois em cada três servidores);
  • Volumes de cache RAM e SSD;
  • Rápido Sincronização rápida para pequenas interrupções na rede.

Contras :

  • Anteriormente, havia apenas uma versão para a plataforma Windows;
  • Em operações de longo prazo (mais de 3 anos) - é difícil encontrar uma unidade para substituir uma falha (fora de produção) para reparar uma matriz RAID (com discos heterogêneos, podem ocorrer falhas na matriz);
  • Um aumento no número de interfaces de rede e nos slots PCI ocupados por elas (adicionalmente para sincronização, placas de rede, comutadores);
  • Ao usar o LSFS - “sistema de arquivos de registro no diário”, desligamento prolongado do sistema, que pode ser prejudicial quando o no-break é acionado quando a energia é desligada;
  • Um tempo muito longo de sincronização completa com um grande volume.

Talvez já tenha solucionado problemas (ocorridos anteriormente durante a operação em nosso data center):

  • Quando a matriz RAID é recolhida, o servidor permanece visível através do canal de sincronização e dados, mas o disco no servidor Windows está offline, o registro Starwind é inflado e a memória do servidor é consumida, como resultado do congelamento do servidor. Tratamento possível: atribuição de um arquivo de controle e remoção de mensagens não críticas das configurações de log.
  • Se o switch ou a interface de rede falhar, uma escolha ambígua do servidor host (às vezes aconteceu, o sistema não conseguiu entender com quem sincronizar).

Notícias úteis (ainda não testadas):
O StarWind Virtual SAN para vSphere (solução hiperconvergente) permite incorporar a virtualização do Vmware em um cluster sem vincular-se a servidores Windows (baseados em máquinas virtuais Linux).

Resumo : Uma solução tolerante a falhas se houver um programa de substituição de servidor de hardware normal no final da garantia e o suporte técnico do StarWindSoftWare estiver disponível.

2. Como criar pequeno armazenamento corporativo


Declaração do problema:

Crie uma rede de armazenamento de dados de pequeno volume à prova de falhas com um total de 4 TB-20 TB, com operação garantida a médio prazo, sem custos financeiros adicionais significativos.

  • O sistema deve ser tolerante a falhas (transfira calmamente a falha de pelo menos um comutador, um servidor, discos e placas de rede no servidor).
  • Para o máximo uso de todos os recursos da frota de servidores de hardware disponível (servidores e comutadores de 3 a 10 anos).
  • Garanta o funcionamento de volumes de diferentes níveis: cache All-Flash e HDD + SSD.

Dados de origem:

  • orçamento limitado;
  • equipamentos de geração há 3-10 anos;
  • Especialistas - Não Linux-Guru.

Cálculo de características

Para evitar gargalos de desempenho ao usar discos SSD, que serão cortados por algo da cadeia de equipamentos: placas de rede, controlador RAID (HBA), expansor (cesta), discos.

É necessário, no momento da criação, fornecer, com base nas características necessárias, uma certa configuração de equipamento.

Obviamente, é possível executar uma configuração com o SSD que armazena em cache o SAS HDD em redes de 1 Gb / s e controladores 3G, mas o resultado será 3-7 vezes pior que nas redes de 6 Gb RAID e 10 Gb / s (verificadas por testes).
As instruções de ajuste do VxFlexOS descrevem instruções simples para calcular a largura de banda necessária, com base nas classificações SSD -450 MB / C e HDD -100 MB / C, para gravação sequencial (por exemplo, quando o servidor é reequilibrado e reconstruído).


Por exemplo:

  • (Cache SSD + 3 HDD), obtemos ((450 * 1) + (3 * 100)) * 8/1000 = 6 GB
  • (ALL SSD FLASH) + (cache SSD + 3 HDD) ((450 * 2) + (3 * 100)) * 8/1000 = 9,6 GB

Para determinar a largura de banda da rede por IOPS (carga padrão em servidores de banco de dados e servidores virtuais carregados), há uma tabela indicativa da StariWindSoftware


Configuração final :

  • Software de armazenamento, que pode não combinar discos em matrizes RAID, mas transferi-los para armazenamento na forma de discos separados (para que não haja problemas ao substituir discos após um certo período de tempo em que eles falham, mas simplesmente selecione-os por capacidade);
  • Servidores de geração dos processadores e55xx-x56xx e superior, barramentos pci-express v 2.0 e superior, controladores Raid (HBA) 6G-12G com memória, cestas de expansão para 6-16 discos;
  • Switches SMB 10G de camada 2 (JUMBO FRAME, LACP).

Método de solução

No momento, não foram encontradas opções de orçamento para um "Small Enterprise Enterprise Storage" de um pequeno volume com os requisitos acima.

Paramos com soluções de software que permitem que você aproveite o Enterprise Storage, com a opção de usar servidores existentes, que neste caso têm o direito de morrer de velhice sem comprometer o armazenamento.

  • Ceph - não há especialistas em Linux suficientes;
  • EMC ScaleIO - por alguns anos de suporte técnico - você pode conviver com a equipe existente.
  • (como se viu, o conhecimento em Linux pode ser mínimo, mais sobre isso mais adiante na folha de dicas).

3. Histórico de overclocking de IOPS (prática de orçamento)


Para acelerar as operações de leitura e gravação em sistemas de armazenamento, foram utilizados os seguintes dispositivos SSD:

3.1 Controladores com recursos de armazenamento em cache SSD.

Em 2010, os controladores RAID com funções de cache Adaptec 5445 SSD com um disco MaxIQ apareceram (para um resultado tangível, você precisava ter pelo menos 10% do disco MaxIQ do volume do volume em cache); o resultado é insignificante *;
Posteriormente, havia controladores que podem usar um disco SSD arbitrário para armazenamento em cache, tanto a série Adaptec Q quanto a LSI CacheCade (mas o licenciamento é separado aqui);

3.2 Armazenamento em cache de software usando discos, como Intel DC S3700 , que é visto pelo controlador e expansor dos servidores de servidores HP, IBM e FUJI de marca (a maioria dos servidores os reconhece com êxito, caros para All-Flash, mas para 10% no cache SSD, é tolerável não liberá-los em parceiros da IBM, HP, FUJI e apenas Intel). * Mas agora existem opções compatíveis mais baratas (consulte o parágrafo 3.5.);

3.3 O armazenamento em cache do software usando o adaptador PCIe- M.2 , Synology M.2 M2D18 SSD , é verificado, funciona em servidores comuns (não apenas no Synology), é útil quando o controlador RAID e a cesta se recusam a ver os SSDs que o fabricante não indicou nos compatíveis (n HP D2700)? *;

3.4 Unidades híbridas EXOS da Seagate 600Gb Seagate Exos 10E2400 (ST600MM0099) {SAS 12Gb / s, 10000rpm, 256Mb, 2,5 "}, * verificado reconhecido pelos servidores HP, IBM e FUJI (alternativa às versões 3.1.-3.3.);

3.5 Unidades SSD com um grande recurso e preço comparável ao SAS de classe empresarial,
Crucial Micron 5200 MAX MTFDDAK480TDN-1AT1ZABYY, * verificado reconhecido pelos servidores HP, IBM, FUJI
(uma alternativa à substituição de unidades de disco rígido por unidades compatíveis com a cláusula 3.4 e compatíveis com servidores SAS antigos: disco rígido SAS2.5 "600GB AL14SEB060N TOSHIBA *,
C10K1800 0B31229 HGST, ST600MM0099 SEAGATE). Permite que um orçamento mude dos volumes HDD + SSD para All-Flash.

4. Dicas para a implantação e operação do armazenamento EMC ScaleIO (VxFlexOS) 1 parte


Armazenamento EMC ScaleIO (VxFlexOS)

Após testar a solução antes da compra, cheguei à conclusão de que, para o funcionamento normal do sistema, são necessários mais de 3 nós (o failover é instável em 3), por exemplo, faça uma configuração de 8 servidores (sobreviverá à falha seqüencial de 4 servidores sem perder volumes).

Peça de hardware :

FUJI CX2550M1 (E5-2xxx) - 3 peças (Cliente SDC do cluster principal de virtualização do servidor VmWare VSphere + ScaleIO e servidor SDS);
+5 servidores de geração HP G6 (G7) ou IBM M3 (e55xx-x56xx) - servidores ScaleIO SDS;
+ 2 comutadores NetGear XS712T-100NES

Ao executar o armazenamento no modo RFCache, consegui fazer o overclock para 44KIops usando o Iometer



Configuração de armazenamento:

Capacidade bruta de 12 TB (licença mínima no momento em que ainda era vendido como software)



8 servidores SDS 28 unidades



Ler cache de RAM de 14 Gb



Leia Flash cashe 1,27 TB (RFCashe)



Na versão intermediária, onde apenas 3 servidores 2x10Gb possuem placas de rede, nos 2 x1Gb restantes.


É claramente visto que, mesmo com o cache do SSD de 1 Gb em vez de 10 Gb, há uma perda de largura de banda do SDS três vezes ou mais, com mídia idêntica.

Sem cache, se você considerar de acordo com esses "padrões" , com 28 HDDs,
obtemos 28X140 = 3920 IOPS, ou seja, para obter 44.000 IOPS, você precisaria de 11 vezes mais discos. É economicamente mais lucrativo para requisitos de pequeno volume, não para aumentar o número de discos, mas para o cache SSD.

À questão de por que tais velocidades com um pequeno volume, responderei imediatamente!

Existem organizações tão pequenas (como a nossa) nas quais há um grande número de documentos eletrônicos que são processados ​​no software por um longo período de tempo (cada registro controla o envio do software por até 1 hora, mesmo nesse armazenamento com overclock). Todas as outras opções já foram aplicadas anteriormente (aumento de RM-RAM, CPU i5, SSD, 1Gb-NET). Mesmo o uso de apenas pacotes configuráveis ​​SSD + SAS no armazenamento (sem o ALL-Flash até agora) tornou possível usar a maioria dos recursos dos servidores de virtualização, transferindo VMs carregadas para o ScaleIO - dobrou a carga nos processadores FUJI CX400M1 (anteriormente retinha o armazenamento).

Source: https://habr.com/ru/post/pt454114/


All Articles