Huawei Dorado V6: Sichuan Heat


O verão em Moscou este ano, para ser sincero, não foi muito bom. Começou muito cedo e rapidamente, nem todos conseguiram reagir e terminou já no final de junho. Portanto, quando a Huawei sugeriu que eu fosse para a China, para a cidade de Chengdu, onde está localizado o centro de RnD, olhando a previsão do tempo a +34 graus à sombra, concordei imediatamente. Ainda assim, minha idade não é a mesma e meus ossos precisam ser aquecidos um pouco. Mas quero observar que foi possível aquecer não apenas os ossos, mas também o interior, porque a província de Sichuan, na qual, na verdade, Chengdu é famosa por seu amor por comida picante. Mas, ainda assim, este blog não é sobre viagens, então voltemos ao objetivo principal de nossa viagem - a nova linha de sistemas de armazenamento - Huawei Dorado V6. Este artigo irá acenar para você um pouco do passado, como Foi escrito antes do anúncio oficial, mas publicado somente após o lançamento. E assim, hoje analisamos tudo de interessante e saboroso que a Huawei preparou para nós.



A nova linha terá 5 modelos. Todos os modelos, exceto 3000V6, podem estar em duas versões - SAS e NVMe. A interface do disco que você pode usar neste sistema, as portas de backend e o número de unidades de disco que você pode instalar no sistema dependem da opção. O NVMe usa SSDs do tamanho de Palm, que são mais finos que os SSDs SAS clássicos de 2,5 ”e podem acomodar até 36 unidades. A nova linha é All Flash e não há configurações de disco.



Palm NVMe SSD


Na minha opinião, os modelos Dorado 8000 e 18000 parecem ser os mais interessantes: a Huawei os posiciona como um sistema sofisticado e, graças à política de preços da Huawei, contrasta esses modelos de gama média com seu segmento de concorrentes. É sobre esses modelos que vou me concentrar hoje em minha análise. Imediatamente, observo que, devido às suas características de design, os sistemas mais novos de controlador duplo têm uma arquitetura um pouco diferente, diferente dos Dorado 8000 e 18000; portanto, nem tudo o que falarei hoje se aplica aos modelos mais jovens.


Uma das principais características dos novos sistemas foi o uso de vários chips de design próprio, cada um dos quais permite transportar a carga lógica do processador central do controlador e adicionar funcionalidade a diferentes componentes.


O coração dos novos sistemas são os processadores Kunpeng 920, desenvolvidos em tecnologias ARM e fabricados de forma independente pela Huawei. Dependendo do modelo, o número de núcleos varia, sua frequência e o número de processadores instalados em cada controlador:
Huawei Dorado V6 8000 - 2CPU, 64 núcleos
Huawei Dorado V6 18000 - 4CPU, 48 núcleos


A Huawei desenvolveu esse processador na arquitetura ARM e, até onde eu sei, planejava colocá-lo apenas nos modelos Dorado 8000 e 18000 mais antigos, como aconteceu com alguns modelos V5, mas as sanções fizeram ajustes nessa idéia. Claro, a ARM também falou sobre a recusa de cooperação com a Huawei durante a imposição de sanções, mas aqui a situação é diferente da Intel. A Huawei produz esses chips por conta própria, e nenhuma sanção pode parar esse processo. O rompimento das relações com a ARM ameaça apenas a perda de acesso a novos desenvolvimentos. Quanto ao desempenho - aqui será possível julgar somente após a realização de testes independentes. Embora eu tenha visto como o 1M IOPS foi removido do sistema Dorado 18000 sem problemas, até fazer isso com minhas próprias mãos no rack, não acredito. Mas as capacidades nos controladores realmente não são suficientes. Os modelos mais antigos estão equipados com 4 controladores, cada um com 4 processadores instalados, o que fornece um total de 768 núcleos.


Mas vou falar sobre os kernels ainda mais tarde, quando olharmos para a arquitetura de novos sistemas, mas por enquanto vamos voltar para outro chip instalado no sistema. O chip Ascend 310 parece uma solução extremamente interessante (como eu o entendo, o irmão mais novo do Ascend 910, que foi recentemente apresentado ao público). Sua tarefa é analisar os blocos de dados que chegam ao sistema para aumentar a taxa de acertos de leitura. Ainda é difícil dizer como ele se mostrará no trabalho, porque Hoje, ele funciona apenas de acordo com um determinado padrão e não tem a capacidade de aprender em um modo intelectual. A aparência de um modo inteligente é prometida no firmware futuro, provavelmente no início do próximo ano.


Vamos para a arquitetura. A Huawei continuou a desenvolver sua própria tecnologia Smart Matrix, que implementa uma abordagem de malha completa para conectar componentes. Mas se na V5 era apenas para o acesso dos controladores aos discos, agora todos os controladores têm acesso a todas as portas no back-end e no front-end.


Graças à nova arquitetura de microsserviço, isso também permite equilibrar a carga entre todos os controladores, mesmo que exista apenas um lun. O SO dessa linha de matrizes foi desenvolvido do zero e não apenas otimizado para o uso de drives Flash. Devido ao fato de todos os controladores terem acesso às mesmas portas, no caso de falha ou reinicialização do controlador, o host não perde um único caminho para o sistema de armazenamento e a troca de caminho é realizada no nível do sistema de armazenamento de dados. Ao mesmo tempo, o uso do UltraPath no host não é uma necessidade estrita. Outra "economia" na instalação do sistema é um número menor de links necessários. E se, com a abordagem "clássica" de 4 controladores, precisarmos de 8 links de 2 fábricas, no caso da Huawei, até 2 serão suficientes (não estou falando agora da suficiência da largura de banda de um link).


Como na versão anterior, um cache global com espelhamento é usado. Isso permite que você perca até dois controladores simultaneamente ou três controladores em série sem afetar a disponibilidade. Mas vale a pena notar que não vimos um balanceamento de carga total entre os três controladores restantes em caso de falha de um, no suporte de demonstração. A carga do controlador com falha foi completamente assumida por um dos demais. É possível que, para isso, seja necessário deixar o sistema trabalhar por mais tempo nessa configuração. De qualquer forma, em meus próprios testes, verificarei isso com mais detalhes.
A Huawei está posicionando novos sistemas como um sistema NVMe de ponta a ponta, mas no momento o front-end do NVMeOF ainda não é suportado, apenas FC, iSCSI ou NFS. No final deste ou no início do próximo, como outros chips, prometemos suporte ao RoCE.


As prateleiras são conectadas aos controladores da mesma maneira usando o RoCE, e isso tem uma desvantagem - a falta de uma conexão em “loop” das prateleiras, como foi o caso do SAS. Na minha opinião, embora essa seja uma grande desvantagem, se você planejou um sistema bastante grande. O fato é que todas as prateleiras são conectadas em série, e a falha de uma das prateleiras implica a inacessibilidade completa de todas as outras que a seguem. Nesse caso, para garantir a tolerância a falhas, precisamos conectar todas as prateleiras aos controladores, o que implica um aumento no número necessário de portas de back-end no sistema.


E mais uma coisa que vale a pena mencionar é a atualização sem interrupção (NDU). Como eu disse acima, a Huawei implementou uma abordagem de contêiner na operação do sistema operacional para a nova linha Dorado, permitindo atualizar e reiniciar serviços, sem a necessidade de uma reinicialização completa do controlador. Vale ressaltar imediatamente que algumas atualizações conterão atualizações do kernel e, nesse caso, a reinicialização clássica dos controladores às vezes ainda será necessária durante a atualização, mas nem sempre. Isso reduzirá o nível de influência dessa operação no sistema produtivo.


Em nosso arsenal, a grande maioria das matrizes da empresa NetApp. Portanto, acho que será bastante lógico fazer uma pequena comparação com os sistemas com os quais tenho que trabalhar bastante. Esta não é uma tentativa de determinar quem é melhor e quem é pior ou cuja arquitetura é mais vantajosa. Tentarei com sobriedade e sem fanatismo comparar duas abordagens diferentes para resolver o mesmo problema de diferentes fornecedores. Sim, é claro, neste caso, consideraremos os sistemas da Huawei em "teoria" e também observarei separadamente aqueles momentos que apenas estão planejados para serem implementados em versões futuras de firmware. Quais são as vantagens que eu vejo no momento:


  1. O número de unidades NVMe suportadas. Hoje, a NetApp possui um número de 288, Huawei, dependendo do modelo - 1600-6400. Ao mesmo tempo, a capacidade máxima utilizável da Huawei é 32PBe, como os sistemas NetApp (para ser mais preciso, eles têm 31,64PBe). E isso apesar do fato de que unidades do mesmo volume são suportadas (até 15 TB). A Huawei explica esse fato da seguinte forma - eles não tiveram a oportunidade de montar um estande maior. Em teoria, eles não têm limite de volume, mas simplesmente não foram capazes de testar esse fato. Mas vale a pena notar que os recursos das unidades flash são muito altos atualmente e, no caso dos sistemas NVMe, somos confrontados com o fato de que 24 unidades são suficientes para utilizar o sistema de 2 controladores de última geração. Consequentemente, um aumento adicional no número de discos no sistema não apenas não proporcionará um ganho de desempenho, mas também afetará adversamente a proporção IOPS / Tb. Obviamente, vale a pena ver quantas unidades os sistemas de 4 controladores 8000 e 16000 podem retirar, porque as capacidades e o potencial do Kunpeng 920 ainda não estão completamente claros.
  2. Lun tem um proprietário nos sistemas NetApp. I.e. apenas um controlador pode executar operações com a lua, enquanto o segundo apenas passa IO por si mesmo. Os sistemas Huawei, pelo contrário, não possuem proprietários e as operações com blocos de dados (compactação, desduplicação) podem ser executadas por qualquer um dos controladores, bem como gravadas em discos.
  3. Nenhuma queda de porta em caso de falha de um dos controladores. Para alguns, esse momento parece extremamente crítico. A conclusão é que a troca dentro do sistema de armazenamento deve ser mais rápida do que no lado do host. E se no caso da mesma NetApp, na prática, revelamos um friso da ordem de 5 segundos ao puxar o controlador e mudar de caminho, a mudança para a Huawei ainda não foi praticada.
  4. Não há necessidade de reiniciar o controlador durante a atualização. Fiquei especialmente preocupado com isso com o lançamento bastante frequente de novas versões e ramificações de firmware para o NetApps. Sim, algumas atualizações da Huawei ainda exigirão uma reinicialização, mas não todas.
  5. 4 controladores Huawei pelo preço de dois controladores NetApp. Como eu disse acima, graças à política de preços da Huawei, ela pode competir com a gama média com seus modelos Hight-end.
  6. A presença de chips adicionais nos controladores de prateleira e nas placas de porta, com o objetivo potencial de aumentar a eficiência do sistema.

Contras e medos em geral:


  1. Conexão direta de prateleiras aos controladores ou a necessidade de um grande número de portas de back-end para conectar todas as prateleiras aos controladores.
  2. Arquitetura ARM e presença de um grande número de chips - com que eficiência ele funcionará e se haverá desempenho suficiente.

A maioria dos medos e medos será capaz de dissipar os próprios testes da nova linha. Espero que logo após o lançamento eles já apareçam em Moscou e que haja número suficiente deles para obter rapidamente um para seus próprios testes. Até agora, podemos dizer que a abordagem da empresa como um todo parece interessante, e a nova linha parece muito boa contra os concorrentes. a implementação final levanta muitas questões, porque veremos muitas coisas apenas no final do ano, e talvez apenas em 2020.

Source: https://habr.com/ru/post/pt467975/


All Articles