Como escolher armazenamento sem dar um tiro no próprio pé

1. Introdução


É hora de comprar armazenamento. Qual deles levar, quem ouvir? O fornecedor A fala sobre o fornecedor B, e também há um integrador C que diz o contrário e aconselha o fornecedor D. Nessa situação, um arquiteto de armazenamento experiente também estará presente, especialmente com todos os novos fornecedores e com o SDS e a hiperconvergência atuais.

Então, como você descobre isso e não é idiota? Nós ( AntonVirtual Anton Zhbankov e korp Evgeny Elizarov) tentaremos falar sobre isso em russo, em branco.
O artigo tem muito em comum e, de fato, é uma extensão do " Design de um Data Center Virtualizado " em termos de escolha de sistemas de armazenamento de dados e uma visão geral da tecnologia de armazenamento. Consideramos brevemente a teoria geral, mas recomendamos que você se familiarize com este artigo.

Porque


Muitas vezes, você pode observar a situação quando uma nova pessoa entra em um fórum ou em uma sala de bate-papo especializada, como Discussões sobre armazenamento e faz a pergunta: “aqui me oferecem duas opções de armazenamento - ABC SuperStorage S600 e XYZ HyperOcean 666v4, o que você recomenda?”

E alguém começa a medir que características da implementação de chips assustadores e incompreensíveis, que para uma pessoa despreparada, é uma letra chinesa.

Portanto, a primeira e principal questão que você precisa se perguntar muito antes de comparar as especificações nas ofertas comerciais é POR QUE? Por que esse armazenamento é necessário?

imagem

A resposta será inesperada, e muito ao estilo de Tony Robbins - para armazenar dados. Obrigado capitão! No entanto, às vezes vamos tão longe na comparação de detalhes que esquecemos por que fazemos tudo isso.

Portanto, a tarefa de um sistema de armazenamento de dados é armazenar e fornecer acesso aos dados com um determinado desempenho. Vamos começar com os dados.

Dados


Tipo de dados


Que tipo de dados planejamos armazenar? Uma questão muito importante que pode excluir muitos sistemas de armazenamento, mesmo considerando. Por exemplo, está planejado para armazenar vídeos e fotos. É possível excluir imediatamente sistemas projetados para acesso aleatório por um pequeno bloco ou sistemas com chips proprietários em compactação / desduplicação. Podem ser apenas excelentes sistemas, não queremos dizer nada de ruim. Mas, nesse caso, seus pontos fortes se tornam fracos ao contrário (vídeos e fotos não são compactados) ou simplesmente aumentam significativamente o custo do sistema.

Por outro lado, se o uso pretendido for um DBMS transacional carregado, excelentes sistemas de streaming multimídia capazes de fornecer gigabytes por segundo seriam uma péssima escolha.

Volume de dados


Quantos dados planejamos armazenar? A quantidade sempre cresce em qualidade; isso nunca deve ser esquecido, especialmente em nosso tempo de crescimento exponencial do volume de dados. Os sistemas da classe Petabyte não são mais raros, mas quanto mais petabytes de volume, mais específico o sistema se torna, menos familiar a funcionalidade dos sistemas com acesso aleatório a volumes pequenos e médios. É trivial porque apenas as tabelas de estatísticas de acesso por blocos se tornam maiores que a RAM disponível nos controladores. Sem mencionar compressão / lacrimejamento. Suponha que desejemos mudar o algoritmo de compactação para um mais poderoso e extrair 20 petabytes de dados. Quanto tempo vai demorar: meio ano, um ano?

Por outro lado, por que se preocupar com um jardim se você precisa armazenar e processar 500 GB de dados? Apenas 500. SSDs domésticos (DWPD baixo) desse tamanho não custam nada. Por que construir uma fábrica de Fibre Channel e comprar um sistema de armazenamento externo sofisticado com o custo de uma ponte de ferro fundido?

Qual a porcentagem do total de dados ativos? Quão desigual é o carregamento de dados? É aqui que a tecnologia de armazenamento em camadas ou o Flash Cache pode realmente ajudar se a quantidade de dados quentes for escassa em comparação ao total. Ou vice-versa, com uma carga uniforme em todo o volume, frequentemente encontrada em sistemas de streaming (vigilância por vídeo, alguns sistemas de análise), essas tecnologias não produzirão nada e apenas aumentarão o custo / complexidade do sistema.

IP


O verso dos dados é um sistema de informação que utiliza esses dados. O IP possui um conjunto de requisitos que herdam dados. Para mais informações sobre IP, consulte “Projetando um Data Center Virtualizado”.

Requisitos de disponibilidade / failover



Os requisitos para tolerância a falhas / disponibilidade de dados são herdados do SI que os utiliza e são expressos em três números - RPO , RTO , disponibilidade .

Disponibilidade - um compartilhamento por um determinado período durante o qual os dados estão disponíveis para trabalhar com eles. Geralmente, é expresso na quantidade de 9. Por exemplo, dois noves por ano significa que a disponibilidade é de 99% ou 95 horas de inacessibilidade por ano são permitidas de outra forma. Três noves - 9,5 horas por ano.

RPO / RTO - esses não são indicadores resumidos, mas para cada incidente (acidente), em oposição à disponibilidade.

RPO - a quantidade de dados perdidos durante o acidente (em horas). Por exemplo, se você fizer backup uma vez por dia, RPO = 24 horas. I.e. Em caso de acidente e perda total de armazenamento, dados de até 24 horas podem ser perdidos (a partir do momento do backup). Com base no RPO especificado para o IS, por exemplo, o agendamento de backup é gravado. Além disso, com base no RPO, você pode entender a quantidade de replicação de dados síncrona / assíncrona necessária.

RTO - recuperação do tempo de serviço (acesso a dados) após um acidente. Com base no valor RTO definido, podemos entender se um cluster de metrô é necessário ou se a replicação unidirecional é suficiente. Também preciso de uma classe de armazenamento high-end com vários controladores.

imagem

Requisitos de desempenho


Apesar de ser uma pergunta muito óbvia, a maioria das dificuldades surge com ela. Dependendo se você já possui algum tipo de infraestrutura ou não, serão construídas maneiras de coletar as estatísticas necessárias.

Você já possui um sistema de armazenamento e está procurando um substituto para ele ou deseja comprar outro para expansão. Tudo é simples aqui. Você entende quais serviços você já possui e quais planeja implementar em um futuro próximo. Com base nos serviços atuais, você tem a oportunidade de coletar estatísticas de desempenho. Decida o número atual de IOPS e os atrasos atuais - quais são esses indicadores e existem o suficiente para suas tarefas? Isso pode ser feito no próprio sistema de armazenamento de dados e na parte dos hosts conectados a ele.

Além disso, você precisa observar não apenas a carga atual, mas por algum período (um mês é melhor). Veja quais são os picos máximos durante o dia, que tipo de carregamento o backup cria etc. Se seu armazenamento ou software não fornecer um conjunto completo desses dados, você poderá usar o RRDtool gratuito, que pode funcionar com a maioria dos armazenamentos e comutadores mais populares e fornecer estatísticas detalhadas de desempenho. Também vale a pena examinar a carga nos hosts que trabalham com esse sistema de armazenamento, em máquinas virtuais específicas ou o que funciona exatamente para você neste host.

imagem

Deve-se observar separadamente que, se os atrasos no volume e no armazenamento de dados contidos neste volume diferirem bastante - você deve prestar atenção à sua rede SAN, é provável que haja problemas com ele e antes de adquirir um novo sistema, você deve lidar com esse problema , porque a probabilidade de aumentar o desempenho do sistema atual é muito alta.

Você constrói a infraestrutura do zero ou adquire um sistema para algum tipo de novo serviço, cujas cargas você não conhece. Existem várias opções: comunicar-se com colegas sobre recursos especializados para tentar descobrir e prever a carga, entre em contato com um integrador com experiência na implementação de tais serviços e que possa calcular a carga para você. E a terceira opção (geralmente a mais difícil, especialmente se se trata de aplicativos auto-escritos ou raros) é tentar descobrir os requisitos de desempenho dos desenvolvedores do sistema.

E atenção, a opção mais correta do ponto de vista da aplicação prática é um piloto em equipamentos atuais, ou equipamentos fornecidos para teste por um fornecedor / integrador.

Requisitos especiais


Requisitos especiais - tudo isso não se enquadra nos requisitos de desempenho, tolerância a falhas e funcionalidade para o processamento direto e o fornecimento de dados.

Um dos requisitos especiais mais simples para um sistema de armazenamento de dados é "mídia de armazenamento alienada". E imediatamente fica claro que esse sistema de armazenamento de dados deve incluir uma biblioteca de fitas ou apenas uma unidade de fita, na qual o backup é redefinido. Então, uma pessoa especialmente treinada assina a fita e a carrega orgulhosamente em um cofre especial.
Outro exemplo de requisitos especiais é um desempenho protegido à prova de choque.

Onde


O segundo componente principal na escolha de um ou outro sistema de armazenamento são as informações sobre ONDE esse sistema de armazenamento estará. Começando pela geografia ou pelas condições climáticas e terminando com o pessoal.

Cliente


Para quem esse armazenamento está planejado? A pergunta tem os seguintes motivos:

Cliente do governo / comercial.
Um cliente comercial não possui restrições e nem é obrigado a realizar licitações, exceto de acordo com seus próprios regulamentos internos.

O cliente do estado é uma questão diferente. 44 Lei Federal e outras delícias com propostas e TK, que podem ser contestadas.

Cliente sancionado
Bem, aqui a pergunta é muito simples - a escolha é limitada apenas pelas ofertas disponíveis para esse cliente.

Regulamentos internos / fornecedores / modelos aprovados
A questão também é extremamente simples, mas devemos lembrar disso.

Onde fisicamente


Nesta parte, consideramos todos os problemas com geografia, canais de comunicação e clima interno.

A equipe


Quem trabalhará com esse armazenamento? Isso não é menos importante do que o SHD pode fazer diretamente.
Não importa o quão promissor, legal e maravilhoso seja o sistema de armazenamento do fornecedor A, provavelmente há pouco sentido em colocá-lo se a equipe puder trabalhar apenas com o fornecedor B e não houver planos para novas compras e cooperação contínua com A.

E, é claro, o outro lado da questão é a disponibilidade de pessoal treinado diretamente na empresa e potencialmente no mercado de trabalho nessa localização geográfica. Para regiões, a escolha de sistemas de armazenamento com interfaces simples ou a possibilidade de gerenciamento centralizado remoto pode fazer sentido. Caso contrário, em algum momento, pode se tornar dolorosamente doloroso. A Internet está cheia de histórias quando um novo funcionário, aluno de ontem, criou uma configuração para que todo o escritório fosse morto.

imagem

O meio ambiente


Bem, é claro, uma pergunta importante é em que ambiente esse armazenamento funcionará.

  • E quanto a energia / refrigeração?
  • Que conexão
  • Onde será montado
  • E assim por diante

Freqüentemente, essas questões são consideradas um dado adquirido e não particularmente abordadas, mas às vezes elas podem mudar tudo exatamente o oposto.

O que


Fornecedor


Hoje (meados de 2019), o mercado russo de armazenamento pode ser dividido em cinco categorias condicionais:

  1. Divisão de topo - empresas homenageadas com uma ampla variedade de prateleiras de disco mais simples a hi-end (HPE, DellEMC, Hitachi, NetApp, IBM / Lenovo)
  2. A segunda divisão é formada por empresas com formação limitada, players de nicho, fornecedores sds de SDS ou recém-chegados (Fujitsu, Datacore, Infinidat, Huawei, Pure, etc.)
  3. A terceira divisão - soluções de nicho no ranking de low-end, SDS barato, boas práticas em ceph e outros projetos abertos (Infortrend, Starwind, etc.)
  4. Segmento SOHO - sistemas de armazenamento pequeno e ultra pequeno em nível doméstico / pequeno escritório (Synology, QNAP, etc.)
  5. Sistemas de armazenamento substituídos por importação - isso inclui o ferro da primeira divisão com etiquetas coladas e os raros representantes da segunda (RAIDIX, vamos dar-lhes um avanço na segunda), mas principalmente essa é a terceira divisão (Aerodisk, Baum, Depo, etc.)

A divisão é bastante arbitrária e não significa que o terceiro segmento ou SOHO seja ruim e não possa ser usado. Em projetos específicos com um conjunto de dados e perfil de carga claramente definidos, eles podem funcionar muito bem, superando em muito a primeira divisão em termos de relação preço / qualidade. É importante primeiro decidir sobre as tarefas, as perspectivas de crescimento, a funcionalidade necessária - e então a Synology o atenderá fielmente, e seu cabelo ficará macio e sedoso.

Um dos fatores importantes na escolha de um fornecedor é o ambiente atual. Quantos e quais sistemas de armazenamento você já possui, com quais sistemas de armazenamento os engenheiros podem trabalhar. Você precisa de outro fornecedor, outro ponto de contato, migrará gradualmente toda a carga do fornecedor A para o fornecedor B?

Não é necessário produzir entidades além do necessário.

iSCSI / FC / arquivo


Na questão dos protocolos de acesso, não há consenso entre os engenheiros, e as disputas parecem mais discussões teológicas do que as de engenharia. Mas, em geral, os seguintes pontos podem ser observados:

FCoE é mais provável morto do que vivo.

FC vs iSCSI . Uma das principais vantagens do FC em 2019 sobre o armazenamento IP, uma fábrica dedicada para acesso a dados, é nivelada por uma rede IP dedicada. O FC não possui vantagens globais sobre as redes IP e o IP pode ser usado para criar sistemas de armazenamento de qualquer nível de carga, até sistemas para DBMSs pesados ​​para ABS de um grande banco. Por outro lado, a morte do FC foi profetizada não pelo primeiro ano, mas algo constantemente interfere nisso. Hoje, por exemplo, alguns players do mercado de armazenamento estão desenvolvendo ativamente o padrão NVMEoF. Se ele compartilha o destino da FCoE - o tempo dirá.

O acesso a arquivos também não merece atenção. O NFS / CIFS tem bom desempenho em ambientes produtivos e, quando projetados adequadamente, não têm mais reclamações do que protocolos de bloqueio.

Matriz híbrida / totalmente flash


Os sistemas de armazenamento clássicos são fornecidos em 2 tipos:

  1. AFA (All Flash Array) - sistemas otimizados para usar SSD.
  2. Híbrido - permite que você use o HDD e o SSD ou uma combinação dos dois.

Sua principal diferença são as tecnologias de eficiência de armazenamento suportadas e o nível máximo de desempenho (IOPS alto e latências baixas). Esses e outros sistemas (na maioria de seus modelos, sem contar o segmento low-end) podem operar dispositivos de bloco e de arquivo. A funcionalidade suportada e os modelos mais novos também dependem do nível do sistema; na maioria das vezes, é reduzido para um nível mínimo. Você deve prestar atenção a isso ao estudar as características de um modelo específico, e não apenas os recursos de toda a linha como um todo. Além disso, é claro, suas características técnicas dependem do nível do sistema, como processador, quantidade de memória, cache, número e tipo de portas, etc. Do ponto de vista do Gerenciamento, o AFA dos sistemas híbridos (disco) diferem apenas na implementação de mecanismos para trabalhar com unidades SSD e, mesmo que você use o SSD em um sistema híbrido, isso não significa que você pode obter um nível de desempenho no nível do sistema AFA . Além disso, na maioria dos casos, os mecanismos embutidos para armazenamento eficiente em sistemas híbridos são desativados e sua inclusão leva a uma perda de desempenho.

Armazenamento Especial


Além do armazenamento de uso geral, focado principalmente no processamento operacional de dados, existem sistemas de armazenamento especiais com princípios-chave que são fundamentalmente diferentes dos usuais (baixa latência, muitas IOPS):

Mídia

Esses sistemas foram projetados para armazenamento e processamento de arquivos de mídia de tamanho grande. Acc. o atraso se torna praticamente sem importância e a capacidade de enviar e receber dados em uma banda larga em muitos fluxos paralelos vem à tona.

Desduplicando o armazenamento para backups.

Como os backups diferem na facilidade de uso, o que é raro em circunstâncias normais (o backup médio difere de ontem em 1-2%), essa classe de sistemas empacota de maneira extremamente eficiente os dados gravados neles em um número bastante pequeno de mídias físicas. Por exemplo, em alguns casos, as taxas de compactação de dados podem chegar a 200 para 1.

Armazenamento de Objetos

Esses sistemas de armazenamento não têm os volumes usuais com acesso a bloco e arquivo de bola e, acima de tudo, se assemelham a um enorme banco de dados. O acesso a um objeto armazenado em tal sistema é realizado por um identificador exclusivo ou por metadados (por exemplo, todos os objetos no formato JPEG, com a data de criação entre XX-XX-XXXX e AA-AAA-AAAA).

Sistema de conformidade .

Não é tão frequentemente encontrado na Rússia hoje, mas vale a pena mencioná-los. O objetivo desses sistemas de armazenamento é o armazenamento garantido de dados para conformidade com políticas de segurança ou requisitos regulatórios. Em alguns sistemas (por exemplo, EMC Centera), a função de proibir a exclusão de dados foi implementada - assim que a chave é girada e o sistema entra nesse modo, nem o administrador nem ninguém pode excluir fisicamente os dados já gravados.

Tecnologia proprietária


Cache Flash


Flash Cache é o nome comum de todas as tecnologias proprietárias para usar a memória flash como um cache de segundo nível. Ao usar o cache flash, o armazenamento geralmente é calculado para fornecer uma carga constante de discos magnéticos, enquanto o cache de pico atende à carga de pico.

É necessário entender o perfil de carregamento e o grau de localização de chamadas para blocos de volumes de armazenamento. O cache em flash é uma tecnologia para cargas com alta localização de solicitações e praticamente não é aplicável a volumes uniformemente carregados (como para sistemas de análise).

Duas implementações de cache flash estão disponíveis no mercado:

  • Somente leitura. Nesse caso, apenas os dados lidos são armazenados em cache e a gravação é direcionada diretamente para os discos. Alguns fabricantes, como a NetApp, acreditam que a gravação no sistema de armazenamento é ideal e o cache não ajuda.
  • Leitura / gravação. Não apenas a leitura, mas também a gravação, são armazenadas em cache, o que permite armazenar em buffer o fluxo e reduzir o impacto da penalidade de RAID e, como resultado, aumentar o desempenho geral do armazenamento sem um mecanismo de gravação ideal.

Camadas


O armazenamento multinível (lacragem) é uma tecnologia de combinação de níveis em um único conjunto de discos com desempenho diferente, como SSD e HDD. No caso de uma não uniformidade pronunciada dos acessos aos blocos de dados, o sistema poderá equilibrar automaticamente os blocos de dados movendo os carregados para um nível de alto desempenho e os frios, pelo contrário, para um mais lento.

Os sistemas híbridos das classes baixa e média usam armazenamento em camadas com a movimentação de dados entre níveis em um planejamento. Ao mesmo tempo, o tamanho do bloco de armazenamento em camadas dos melhores modelos é de 256 MB. Esses recursos não nos permitem considerar a tecnologia de armazenamento multinível como uma tecnologia para aumentar a produtividade, pois é considerada erroneamente por muitos. O armazenamento multinível em sistemas de classe média e baixa é uma tecnologia para otimizar os custos de armazenamento para sistemas com irregularidades de carga pronunciadas.

Instantâneo


Não importa o quanto falemos sobre a confiabilidade do armazenamento, há muitas oportunidades para perder dados que não dependem de problemas de hardware. Pode ser como vírus, hackers ou qualquer outra exclusão / corrupção inadvertida de dados. Por esse motivo, o backup de dados produtivos é parte integrante do trabalho do engenheiro.

Um instantâneo é um instantâneo de um volume em algum momento. Ao trabalhar com a maioria dos sistemas, como virtualização, bancos de dados, etc. precisamos tirar uma captura instantânea da qual copiaremos os dados para uma cópia de backup, enquanto nossos IPs podem continuar trabalhando com esse volume com segurança. Mas vale lembrar - nem todos os instantâneos são igualmente úteis. Diferentes fornecedores têm abordagens diferentes para criar instantâneos relacionados à sua arquitetura.

CoW (cópia na gravação). Quando você tenta escrever um bloco de dados, seu conteúdo original é copiado para uma área especial, após a qual a gravação é normal. Isso evita a corrupção de dados dentro do instantâneo. Naturalmente, todas essas manipulações de dados "parasitas" causam uma carga adicional no sistema de armazenamento e, por esse motivo, os fornecedores com uma implementação semelhante não recomendam o uso de mais de uma dúzia de instantâneos e não os utilizam em volumes muito carregados.

RoW (Redirecionar na gravação). Nesse caso, o volume original é congelado naturalmente e, quando você tenta gravar um bloco de dados, o sistema de armazenamento grava dados em uma área especial em espaço livre, alterando a localização desse bloco na tabela de metadados. Isso permite reduzir o número de operações de reescrita, o que acaba eliminando a queda no desempenho e removendo as restrições nas capturas instantâneas e seu número.

Existem também dois tipos de capturas instantâneas com relação aos aplicativos:

Aplicativo consistente . No momento da criação da captura instantânea, o sistema de armazenamento puxa um agente no sistema operacional do consumidor, que libera forçosamente os caches de disco da memória para o disco e força a aplicação a ser feita. Nesse caso, ao restaurar de um instantâneo, os dados serão consistentes.

Bater consistente. Nesse caso, nada disso acontece e o instantâneo é criado como está. No caso de recuperação de um instantâneo, a imagem é idêntica como se a energia tivesse sido desligada repentinamente e poderia haver alguma perda de dados que ficou suspensa nos caches e não atingiu o disco. Tais instantâneos são mais fáceis de implementar e não causam queda de desempenho nos aplicativos, mas são menos confiáveis.

Por que as capturas instantâneas são necessárias nos sistemas de armazenamento?

  • Backup sem agente diretamente do armazenamento
  • Criando ambientes de teste com base em dados reais
  • No caso de armazenamento de arquivo, ele pode ser usado para criar ambientes VDI usando instantâneos de armazenamento em vez do hypervisor.
  • Garantir baixos RPOs criando instantâneos agendados com uma frequência significativamente maior que a frequência de backup

Clonagem


Clonar um volume - funciona de acordo com um princípio semelhante ao instantâneo, mas serve não apenas para ler dados, mas para trabalhar totalmente com eles. Conseguimos obter uma cópia exata do nosso volume, com todos os dados, sem fazer uma cópia física, o que economizará espaço. Normalmente, a clonagem de volume é usada no Test & Dev ou se você deseja verificar a funcionalidade de algumas atualizações no seu IS. A clonagem permitirá que você faça isso o mais rápido e economicamente possível em termos de recursos de disco, somente blocos de dados modificados serão gravados.

Replicação / Diário


A replicação é um mecanismo para criar uma cópia dos dados em outro sistema de armazenamento físico. Geralmente, existe uma tecnologia proprietária para cada fornecedor que trabalha apenas dentro de sua própria linha. Mas também existem soluções de terceiros, incluindo aquelas que trabalham no nível do hipervisor, como o VMware vSphere Replication.

A funcionalidade das tecnologias proprietárias e sua usabilidade geralmente são muito superiores às universais, mas não são aplicáveis ​​quando, por exemplo, você precisa fazer uma réplica do NetApp para o HP MSA.

A replicação é dividida em duas subespécies:

Síncrona . No caso de replicação síncrona, a operação de gravação é enviada para o segundo sistema de armazenamento imediatamente e a execução não é confirmada até que o sistema de armazenamento remoto o confirme. Devido a isso, o atraso no acesso está aumentando, mas temos uma cópia exata dos dados. I.e.RPO = 0 para o caso de perda de armazenamento primário.

Assíncrono . As operações de gravação são executadas apenas no sistema de armazenamento principal e são confirmadas imediatamente, acumulando simultaneamente no buffer para transmissão de pacotes ao sistema de armazenamento remoto. Esse tipo de replicação é relevante para dados menos valiosos, seja para canais de baixa largura de banda ou com alto atraso (típico para distâncias superiores a 100 km). Respectivamente RPO = frequência de envio de pacotes.

Geralmente, existe um mecanismo de log com replicaçãooperações de disco. Nesse caso, uma área especial para registro é alocada e operações de registro de uma certa profundidade no tempo, ou limitadas pelo volume do registro, são armazenadas. Para certas tecnologias proprietárias, como o EMC RecoverPoint, há integração com o software do sistema que permite vincular marcadores específicos a um lançamento contábil específico. Graças a isso, é possível reverter o estado do volume (ou criar um clone) não apenas em 23 de abril, 11 horas e 59 segundos em 13 milissegundos, mas no momento anterior a “DROP ALL TABLES; COMPROMETIR. ”

Metro cluster


O Metro Cluster é uma tecnologia que permite criar replicação síncrona bidirecional entre dois sistemas de armazenamento, de forma que, do lado desse par, pareça um sistema de armazenamento. É usado para criar aglomerados com ombros geograficamente espaçados a distâncias de metrô (menos de 100 km).

Usando um exemplo em um ambiente de virtualização, um cluster metro permite criar um armazenamento de dados com máquinas virtuais que podem ser gravadas diretamente de dois data centers. Nesse caso, um cluster é criado no nível do hipervisor, consistindo em hosts em diferentes data centers físicos, conectados a esse armazenamento de dados. O que permite que você faça o seguinte:

  • . , , . RTO = (15 VMware) + .
  • Disaster avoidance , -, . 1, , , 2 .


A virtualização de armazenamento é tecnicamente o uso de volumes de outro sistema de armazenamento como discos. Um sistema de armazenamento virtualizado pode simplesmente enviar um volume externo para o consumidor, espelhando-o simultaneamente para outro sistema de armazenamento ou até criar RAID a partir de volumes externos.
Os representantes clássicos na classe de virtualização de armazenamento são EMC VPLEX e IBM SVC. Bem, é claro, armazenamento com virtualização - NetApp, Hitachi, IBM / Lenovo Storwize.

Por que você pode precisar?

  • Redundância no nível de armazenamento. Um espelho é criado entre os volumes, sendo metade no HP 3Par e o outro na NetApp. Um virtualizador da EMC.
  • . , 3Par, , Dell. 3Par, VPLEX . , . Dell, 3Par .
  • .

/


Compactação e desduplicação são aquelas tecnologias que permitem economizar espaço em disco no seu armazenamento. Vale ressaltar imediatamente que longe de todos os dados estão sujeitos a compactação e / ou desduplicação em princípio, enquanto alguns tipos de dados são compactados e desduplicados melhor, e alguns são vice-versa.

Existem 2 tipos de compactação e deduplicação :

Inline - os blocos de dados são compactados e deduplicados antes que esses dados sejam gravados no disco. Assim, o sistema calcula apenas o hash do bloco e o compara de acordo com a tabela com os existentes. Em primeiro lugar, isso é mais rápido do que apenas gravar no disco e, em segundo lugar, não consumimos espaço em disco extra.

Post- quando essas operações já forem realizadas nos dados gravados que estão nos discos. Dessa forma, os dados são gravados primeiro no disco e, somente então, o hash é calculado e os blocos extras são removidos e os recursos do disco são liberados.

Vale dizer que a maioria dos fornecedores usa os dois tipos, o que permite otimizar esses processos e, assim, aumentar sua eficiência. A maioria dos fornecedores de armazenamento possui utilitários disponíveis que permitem analisar seus conjuntos de dados. Esses utilitários funcionam de acordo com a mesma lógica implementada no sistema de armazenamento; portanto, o nível estimado de eficiência coincidirá. Além disso, não esqueça que muitos fornecedores possuem programas de garantia de eficiência que prometem um nível não inferior ao declarado para determinados (ou todos) tipos de dados. E não negligencie esse programa, pois, calculando o sistema para suas tarefas, levando em consideração o coeficiente de eficiência de um sistema específico, você pode economizar no volume. Também vale a pena considerar que esses programas foram projetados para sistemas AFA, mas, graças à compra de um volume menor de SSDs,do que o HDD em sistemas clássicos, isso reduzirá o custo e, se você não comparar com o custo de um sistema de disco, ele se aproximará bastante dele.

Modelo


E aqui chegamos à pergunta certa.

"Aqui são oferecidas duas opções de armazenamento - ABC SuperStorage S600 e XYZ HyperOcean 666v4, o que você recomenda?

Volta para" Aqui são oferecidas duas opções de armazenamento - ABC SuperStorage S600 e XYZ HyperOcean 666v4, o que você recomenda?

A carga alvo combina máquinas virtuais VMware com loops produtivos / teste / desenvolvimento. Teste = produtivo. Cada um de 150 TB com um desempenho máximo de 80.000 IOPS 8kb bloqueia 50% de acesso aleatório 80/20 de leitura e gravação. 300 TB para desenvolvimento, existem 50.000 IOPS, 80 aleatórios e 80 entradas suficientes.

Espera-se que seja produtivo em um cluster metro RPO = 15 minutos RTO = 1 hora, desenvolvimento em replicação assíncrona RPO = 3 horas, um teste em um site.

Haverá 50 TB de DBMS, seria bom que eles registrassem.

Temos servidores Dell em todos os lugares, os antigos sistemas de armazenamento Hitachi mal conseguem lidar, planejamos aumentar 50% da carga em termos de volume e desempenho. ”

Como se costuma dizer, uma pergunta formulada corretamente contém 80% da resposta.

Informações Adicionais


Com o que você deve se familiarizar adicionalmente, de acordo com os autores

Livros


  • Olifer e Olifer “Redes de Computadores”. O livro ajudará a sistematizar e possivelmente entender melhor como o meio de transmissão de dados funciona nos sistemas de armazenamento IP / Ethernet.
  • “Armazenamento e gerenciamento de informações da EMC”. Um ótimo livro sobre os conceitos básicos de armazenamento, por que, como e por que.

Fóruns e bate-papos



Recomendações gerais


Preços


Agora, com relação aos preços - em geral, se eles encontrarem preços de armazenamento, geralmente é um preço de lista, do qual cada cliente recebe um desconto individual. O valor do desconto é composto por um grande número de parâmetros, portanto, é simplesmente impossível prever qual o preço final que sua empresa receberá sem uma solicitação ao distribuidor. Mas, ao mesmo tempo, modelos recentemente low-end começaram a aparecer em lojas comuns de computadores, como, por exemplo, nix.ru ou xcom-shop.ru . Neles, você pode comprar imediatamente o sistema de seu interesse por um preço fixo, como qualquer componente de computador.

Mas quero observar imediatamente que uma comparação direta em TB / $ não é verdadeira. Se você se aproximar desse ponto de vista, o servidor JBOD + mais simples será a solução mais barata, que não fornecerá a flexibilidade ou a confiabilidade oferecidas por um sistema de armazenamento de controlador duplo completo. Isso não significa que o JBOD seja nojento e sujo, só precisa entender com muita clareza novamente como e com que finalidade você usará esta solução. Você pode ouvir muitas vezes que não há nada para quebrar no JBOD, há um backplane. No entanto, backplains também podem falhar. Tudo quebra mais cedo ou mais tarde.

Total


Comparar sistemas entre si é necessário não apenas pelo preço, ou não apenas pela produtividade, mas pela totalidade de todos os indicadores.

Compre HDD somente se tiver certeza de que precisa de HDD. Para cargas baixas e tipos de dados incompressíveis, no caso oposto, vale a pena prestar atenção nos programas de garantia de eficiência de armazenamento SSD que a maioria dos fornecedores possui atualmente (e eles realmente funcionam, mesmo na Rússia), mas tudo depende dos aplicativos e dados que serão fornecidos. localizado neste armazenamento.

Não corra atrás do barato. Às vezes, muitos momentos desagradáveis ​​estão ocultos sob esses, um dos quais Yevgeny Elizarov descreveu em seus artigos sobre Infortrend . E que, no final, esse preço baixo pode chegar ao seu lado. Não se esqueça - "avarento paga duas vezes".

Source: https://habr.com/ru/post/pt457956/


All Articles