Como compactar até 90% de armazenamento de backups no armazenamento de objetos

Nossos clientes turcos nos pediram para configurar o backup do data center corretamente. Estamos fazendo projetos semelhantes na Rússia, mas foi aqui que a história foi mais sobre a pesquisa da melhor maneira de fazê-lo.

Dado: existe um armazenamento S3 local, existe o Veritas NetBackup, que adquiriu nova funcionalidade avançada para mover dados para armazenamentos de objetos agora com suporte à desduplicação e há um problema com espaço livre nesse armazenamento local.

Objetivo: fazer tudo para que o processo de armazenamento de backup seja rápido e barato.

Na verdade, antes disso, no S3, tudo era apenas arquivos, e essas eram moldes completas de máquinas críticas de data center. Isso não é muito otimizado, mas tudo funcionou no início. Agora é hora de descobrir e fazer o que é certo.

Na figura, chegamos ao seguinte:



Como você pode ver, o primeiro backup foi feito lentamente (70 Mb / s) e os backups subsequentes dos mesmos sistemas foram muito mais rápidos.

Na verdade, mais alguns detalhes sobre quais recursos existem.

Logs de backup para aqueles que estão prontos para ler meia página de despejo
Completo com redigitalização
18 de dezembro de 2018 12:09:43 - O acelerador de informações bpbkar (pid = 4452) enviou 14883996160 bytes de 14883994624 bytes para o servidor, otimização de 0,0%
18 de dezembro de 2018 12:10:07 - Info NBCC (pid = 23002) StorageServer = PureDisk_rhceph_rawd: s3.cloud.ngn.com.tr; Report = PDDO Stats (fluxo multiencadeado usado) para (NBCC): varrido: 14570817 KB, CR enviado: 1760761 KB, CR enviado pelo FC: 0 KB, dedup: 87,9%, cache desativado

Cheio
18 de dezembro de 2018 12:13:18 - O acelerador de informações bpbkar (pid = 2864) enviou 181675008 bytes de 14884060160 bytes para o servidor, otimização 98,8%
18 de dezembro de 2018 12:13:40 - Info NBCC (pid = 23527) StorageServer = PureDisk_rhceph_rawd: s3.cloud.ngn.com.tr; Report = PDDO Stats for (NBCC): varrido: 14569706 KB, CR enviado: 45145 KB, CR enviado pelo FC: 0 KB, dedup: 99.7%, cache desativado

Incremental
18 de dezembro de 2018 12:15:32 - O acelerador de informações bpbkar (pid = 792) enviou 9970688 bytes de 14726108160 bytes para o servidor, otimização de 99,9%
18 de dezembro de 2018 12:15:53 ​​- Info NBCC (pid = 23656) StorageServer = PureDisk_rhceph_rawd: s3.cloud.ngn.com.tr; Report = PDDO Stats for (NBCC): varrido: 14383788 KB, CR enviado: 15700 KB, CR enviado pelo FC: 0 KB, dedup: 99.9%, cache desativado

Cheio
18 de dezembro de 2018 12:18:02 - O acelerador de informações bpbkar (pid = 3496) enviou 171746816 bytes de 14884093952 bytes para o servidor, otimização 98,8%
18 de dezembro de 2018 12:18:24 - Info NBCC (pid = 23878) StorageServer = PureDisk_rhceph_rawd: s3.cloud.ngn.com.tr; Report = PDDO Stats for (NBCC): varrido: 14569739 KB, CR enviado: 34120 KB, CR enviado pelo FC: 0 KB, dedup: 99.8%, cache desativado


Qual é o problema


Os clientes desejam fazer backup o mais rápido possível e armazenar o mais barato possível. É barato armazená-los melhor no armazenamento de objetos do tipo S3, porque eles são os mais baratos ao preço de manutenção por megabyte, de onde você pode fazer o rollback em um período de tempo razoável. Quando há muitos backups, não fica muito barato, porque a maior parte do armazenamento é ocupada por cópias dos mesmos dados. No caso de HaaS de colegas turcos, o armazenamento pode ser densificado em cerca de 80-90%. É claro que isso se aplica especificamente a suas especificidades, mas eu definitivamente contaria com pelo menos 50% da dedução.

Para resolver o problema, os principais fornecedores criaram gateways no Amazon S3. Todos os seus métodos são compatíveis com o S3 local se eles suportarem a API da Amazon. No data center turco, o backup é feito em nosso S3, bem como no "Compressor" T-III na Rússia, pois esse esquema de trabalho se mostrou bom conosco.

E o nosso S3 é totalmente compatível com os métodos de backup no Amazon S3. Ou seja, todas as ferramentas de backup que oferecem suporte a esses métodos permitem copiar tudo para esse armazenamento "pronto para uso".

O Veritas NetBackup criou um recurso do CloudCatalyst:



Ou seja, entre as máquinas que precisam de backup e o gateway, existe um servidor Linux intermediário, através do qual o tráfego de backup dos agentes do CPC passa e a desduplicação é feita em tempo real antes de transferi-los para o S3. Se antes havia 30 backups de 20 GB cada um com compactação, agora (devido à semelhança das máquinas) eles se tornaram 90% menores em volume. O mecanismo de deduplicação é usado da mesma maneira que quando armazenado em discos regulares usando o Netbackup.

Aqui está o que acontece antes do servidor intermediário:



Testamos e chegamos à conclusão de que, quando implementado em nossos data centers, isso economiza espaço nos armazenamentos S3 para nós e para os clientes. Como proprietário de data centers comerciais, é claro, cobramos pelo volume ocupado, mas ainda assim é muito lucrativo para nós - porque começamos a ganhar em lugares mais escaláveis ​​em software, e não no aluguel de ferro. Bem, isso é uma redução nos custos internos.

Logs
228 Trabalhos (0 Em fila 0 Ativo 0 Aguardando nova tentativa 0 Suspenso 0 Incompleto 228 Concluído - 13 selecionado)
(Filtro aplicado [13])

Tipo de ID da tarefa Estado Estado Detalhes Status Política da tarefa Horário da tarefa Cliente Servidor de mídia Horário inicial Tempo decorrido Unidade de armazenamento Unidade Tentativa Operação Kilobytes Files Nome do caminho% de caminho concluído (estimado) Proprietário do PID da tarefa Copiar ID da tarefa pai KB / s Ativo Início ativo Sessão de perfil do Vault de robô decorrido ativo ID da mídia para ejetar movimentação de dados Tipo de host externo Taxa de desduplicação de prioridade principal Instância de otimização do acelerador de transporte ou host de compartilhamento de banco de dados
- 1358 Instantâneo concluído 0 VMware - NGNCloudADC NBCC 18 de dezembro de 2018 12:16:19 00:02:18 18 de dezembro de 2018 12:18:37 STU_DP_S3 _ **** backup 1 100% raiz 1358 18 de dezembro de 2018 12 : 16: 27 PM 00:02:10 Disco de recuperação instantânea padrão WIN - *********** 0
1360 Backup concluído 0 VMware completo NGNCloudADC NBCC 18 de dezembro de 2018 12:16:48 00:01:39 18 de dezembro de 2018 12:18:27 STU_DP_S3 _ **** backup 1 14.535.248 149654 100% 23858 raiz 1358 335.098 dez 18 , 2018 12:16:48 PM 00:01:39 Disco de recuperação instantânea padrão WIN - *********** 0 99,8% 99%
Instantâneo 1352 concluído 0 VMware - NGNCloudADC NBCC 18 de dezembro de 2018 12:14:04 00:02:01 18 de dezembro de 2018 12:16:05 STU_DP_S3 _ **** backup 1 100% raiz 1352 18 de dezembro de 2018 12: 14:14 00:01:51 Disco de recuperação instantânea padrão WIN - *********** 0
1354 Backup concluído 0 VMware Incremental NGNCloudADC NBCC 18 de dezembro de 2018 12:14:34 00:01:21 18 de dezembro de 2018 12:15:55 STU_DP_S3 _ **** backup 1 14.380.965 147 100% 23617 raiz 1352 500.817 dez 18 , 2018 12:14:34 00:01:21 Disco de recuperação instantânea padrão WIN - *********** 0 99,9% 100%
Instantâneo 1347 concluído 0 VMware - NGNCloudADC NBCC 18 de dezembro de 2018 12:11:45 00:02:08 18 de dezembro de 2018 12:13:53 STU_DP_S3 _ **** backup 1 100% raiz 1347 18 de dezembro de 2018 12: 23:45 00:02:08 Disco de recuperação instantânea Standard WIN - *********** 0
1349 Backup concluído 0 VMware completo NGNCloudADC NBCC 18 de dezembro de 2018 12:12:02 00:01:41 18 de dezembro de 2018 12:13:43 STU_DP_S3 _ **** backup 1 14.535.215 149653 100% 23508 raiz 1347 316.319 dez 18 , 2018 12:12:02 PM 00:01:41 Disco de recuperação instantânea padrão WIN - *********** 0 99,7% 99%
Instantâneo 1341 concluído 0 VMware - NGNCloudADC NBCC 18 de dezembro de 2018 12:05:28 PM 00:04:53 18 de dezembro de 2018 12:10:21 STU_DP_S3 _ **** backup 1 100% raiz 1341 18 de dezembro de 2018 12: 05:28 PM 00:04:53 Disco de recuperação instantânea padrão WIN - *********** 0
1342 Backup concluído 0 VMware Full_Rescan NGNCloudADC NBCC 18 de dezembro de 2018 12:05:47 00:04:24 18 de dezembro de 2018 12:10:11 STU_DP_S3 _ **** backup 1 14.535.151 149653 100% 22999 root 1341 70.380 dez 18 , 2018 12:05:47 PM 00:04:24 Disco de recuperação instantânea padrão WIN - *********** 0 87,9% 0%

Instantâneo 1339 concluído 150 VMware - NGNCloudADC NBCC 18 de dezembro de 2018 11:05:46 00:00:53 18 de dezembro de 2018 11:06:39 STU_DP_S3 _ **** backup 1 100% raiz 1339 18 de dezembro de 2018 11: 05:46 00:00:53 Disco de recuperação instantânea padrão WIN - *********** 0
1327 Instantâneo concluído 0 VMware - *******. ********. Cloud NBCC 17 de dezembro de 2018 12:54:42 PM 05:51:38 17 de dezembro de 2018 18:46:20 STU_DP_S3 _ **** backup 1 100% raiz 1327 dez 17, 2018 12:54:42 PM 05:51:38 Disco de recuperação instantânea padrão WIN - *********** 0
1328 Backup concluído 0 VMware completo *******. ********. Cloud NBCC 17 de dezembro de 2018 12:55:10 PM 05:29:21 17 de dezembro de 2018 18:24:31 STU_DP_S3 _ **** backup 1 222,602,719 258932 100% 12856 raiz 1327 11,326 17 de dez de 2018 12:55:10 PM 05:29:21 Padrão de disco de recuperação instantânea WIN - *********** 0 87,9% 0%
1136 Instantâneo concluído 0 VMware - *******. ********. Cloud NBCC 14 de dezembro de 2018 16:48:22 04:05:16 14 de dezembro de 2018 20:53:38 STU_DP_S3 _ **** backup 1 100% raiz 1136 14 de dezembro de 2018 16:48:22 16:05:16 Disco de recuperação instantânea padrão WIN - ***********
1140 Backup concluído 0 VMware Full_Scan *******. ********. Cloud NBCC 14 de dezembro de 2018 16:49:14 03:49:58 14 de dezembro de 2018 20:39:12 STU_DP_S3 _ **** backup 1 217.631.332 255465 100% 26438 raiz 1136 15.963 14 de dezembro de 2018 16:49:14 03:49:58 Disco de recuperação instantânea padrão WIN - *********** 0 45,2% 0%

O acelerador permite reduzir o tráfego de agentes, porque somente as alterações de dados são transmitidas, ou seja, até os backups completos não são totalmente gerados, uma vez que o servidor de mídia coleta backups completos subsequentes de backups incrementais.

O servidor intermediário possui seu próprio repositório, onde grava um "cache" de dados e mantém a base para deduplicação.

Na arquitetura completa, fica assim:

  1. O servidor mestre gerencia configurações, atualizações e muito mais, e está na nuvem.
  2. O servidor de mídia (máquina intermediária * nix) deve estar localizado mais próximo dos sistemas redundantes em termos de disponibilidade da rede. Aqui, os backups são deduplicados de todas as máquinas redundantes.
  3. Existem agentes nas máquinas redundantes que geralmente enviam para o servidor de mídia apenas o que não está em seu armazenamento.

Tudo começa com uma verificação completa - este é um backup completo completo. Nesse ponto, o servidor de mídia pega tudo, desduplica e transfere para o S3. A velocidade para o servidor de mídia é baixa, a partir dela - maior. A principal limitação é o poder de processamento do servidor.

Os backups a seguir são concluídos do ponto de vista de todos os sistemas, mas, na realidade, são algo como backups sintéticos completos. Ou seja, a transferência e a gravação reais no servidor de mídia são apenas os blocos de dados que ainda não foram vistos nos backups da VM antes. E a transferência e a gravação para o S3 são apenas os blocos de dados cujo hash não está no banco de dados de deduplicação do servidor de mídia. Se em palavras mais simples - que não havia VMs em nenhum backup antes.

Ao restaurar, o servidor de mídia solicita os objetos deduplicados necessários do S3, os reidrata e os passa para os agentes do CPC, ou seja, é necessário levar em consideração o volume de tráfego durante a restauração, que será igual ao volume real de dados que estão sendo restaurados.

Aqui está o que parece:



E aqui está outro pedaço de toras
169 Trabalhos (0 Na fila 0 Ativo 0 Aguardando nova tentativa 0 Suspenso 0 Incompleto 169 Concluído - 1 selecionado)

Tipo de ID da tarefa Estado Estado Detalhes Status Política da tarefa Horário da tarefa Cliente Servidor de mídia Horário inicial Tempo decorrido Unidade de armazenamento Unidade Tentativa Operação Kilobytes Files Nome do caminho% de caminho concluído (estimado) Proprietário do PID da tarefa Copiar ID da tarefa pai KB / s Ativo Início ativo Sessão de perfil do Vault de robô decorrido ativo ID da mídia para ejetar movimentação de dados Tipo de host externo Taxa de desduplicação de prioridade principal Instância de otimização do acelerador de transporte ou host de compartilhamento de banco de dados
- 1372 Restauração concluída 0 nbpr01 NBCC 19 de dezembro de 2018 13:05:58 00:04:32 19 de dezembro de 2018 13:10:30 PM 1 14.380.577 1 100% 8548 root 1372 70.567 19 de dezembro de 2018 1:06:00 PM 00:04:30 WIN - *********** 90.000

A integridade dos dados é garantida pela proteção do próprio S3 - existe uma boa redundância para proteger contra falhas de hardware, como um eixo de disco rígido morto.

O servidor de mídia precisa de 4 terabytes de cache - esta é a recomendação da Veritas para o tamanho mínimo. Melhor ainda, mas fizemos exatamente isso.

Sumário


Quando um parceiro lançou 20 GB no nosso S3, armazenamos 60 GB, porque fornecemos três vezes a reserva geográfica de dados. Agora, o tráfego é muito menor, o que é bom tanto para o canal quanto para o carregamento do armazenamento.

Nesse caso, as rotas são fechadas após a "grande Internet", mas você pode direcionar o tráfego através da VPN L2 pela Internet, mas é melhor definir o servidor de mídia para a entrada do provedor.

Se você estiver interessado em aprender sobre esses recursos em nossos data centers russos ou se tiver dúvidas sobre como implementá-lo, pergunte nos comentários ou no e-mail ekorotkikh@croc.ru.

Source: https://habr.com/ru/post/pt461717/


All Articles