Confiabilidade do flash: esperado e inesperado. Parte 2. XIV conferência da associação USENIX. Tecnologias de armazenamento de arquivos

Confiabilidade do flash: esperado e inesperado. Parte 1. XIV conferência da associação USENIX. Tecnologias de armazenamento de arquivos

4.2.2 RBER e idade dos discos (excluindo os ciclos de PE).


A Figura 1 mostra uma correlação significativa entre RBER e idade, que é igual ao número de meses de operação do disco no campo. No entanto, isso pode ser uma correlação falsa, pois é provável que os discos mais antigos tenham mais PE e, portanto, o RBER esteja mais interconectado com os ciclos do PE.

Para eliminar o efeito da idade no desgaste causado pelos ciclos de PE, agrupamos todos os meses de operação em contêineres usando os decis da distribuição do ciclo de PE como um corte entre contêineres, por exemplo, o primeiro contêiner contém todos os meses de operação do disco até o primeiro decil da distribuição do ciclo de PE e assim por diante mais adiante. Verificamos que dentro de cada contêiner, a correlação entre os ciclos PE e RBER é bastante pequena (uma vez que cada contêiner cobre apenas uma pequena faixa de ciclos de PE) e, em seguida, calculamos o coeficiente de correlação entre o RBER e a idade do disco para cada contêiner separadamente.

Realizamos essa análise separadamente para cada modelo, porque quaisquer correlações observadas são causadas não por diferenças entre os modelos mais novos e mais antigos, mas exclusivamente pela idade dos discos do mesmo modelo. Observamos que, mesmo após limitar o efeito da influência dos ciclos de PE, conforme descrito acima, para todos os modelos de disco, ainda havia uma correlação significativa entre o número de meses de operação em disco no campo e seu RBER (coeficientes de correlação variaram de 0,2 a 0,4).


Fig. 3. O relacionamento entre o RBER e o número de ciclos PE para unidades novas e antigas indica que a idade da unidade afeta o valor RBER, independentemente dos ciclos PE causados ​​pelo desgaste.

Também visualizamos graficamente a influência da idade da unidade, separando os dias de operação do disco na idade "jovem" de até 1 ano e os dias de operação do disco com idade superior a 4 anos, após o qual plotamos a dependência do RBER de cada grupo no número de ciclos de PE. A Figura 3 mostra esses resultados para o modelo de unidade MLC-D. Vemos uma diferença notável nos valores do coeficiente RBER entre grupos de discos antigos e novos em todos os valores dos ciclos de PE.

A partir disso, concluímos que a idade, medida pelos dias de uso do disco no campo, tem um efeito significativo no RBER, independentemente do desgaste das células de memória devido aos efeitos dos ciclos de PE. Isso significa que outros fatores, como o envelhecimento do silício, desempenham um papel importante na deterioração física do disco.

4.2.3 RBER e carga de trabalho.


Pensa-se que os erros de bit sejam causados ​​por um dos quatro mecanismos:

  1. Erros de retenção quando uma célula da memória perde dados ao longo do tempo
    Erros de perturbação de leitura, nos quais uma operação de leitura danifica o conteúdo de uma célula vizinha;
  2. Erros de perturbação de gravação, nos quais uma operação de leitura danifica o conteúdo de uma célula vizinha;
  3. erros de exclusão incompletos quando a operação de exclusão não exclui completamente o conteúdo da célula.


Os erros relacionados aos três últimos tipos (distúrbio de leitura, distúrbio de gravação, apagamento incompleto) se correlacionam com a carga de trabalho; portanto, entender a correlação entre RBER e carga de trabalho nos ajuda a entender a prevalência de vários mecanismos de erro. Em um estudo recente, “Um estudo em larga escala de falhas de memória flash no campo” (MEZA, J., WU, Q., KUMAR, S., MUTLU, O. “Um estudo em larga escala de falhas de memória flash em campo.” Os procedimentos da Conferência Internacional ACM SIGMETRICS de 2015 sobre Medição e Modelagem de Sistemas de Computador, Nova York, 2015, SIGMETRICS '15, ACM, pp. 177–190) concluíram que os erros de armazenamento predominam em campo, enquanto erros de violação de leitura são bem menores.

A Figura 1 mostra uma relação significativa entre o valor RBER em um determinado mês de operação do disco e o número de operações de leitura, gravação e exclusão no mesmo mês para alguns modelos (por exemplo, um coeficiente de correlação acima de 0,2 para o modelo MLC-B e acima de 0,6 para o modelo SLC-B). No entanto, isso pode ser uma correlação falsa, pois a carga de trabalho mensal pode estar relacionada ao número total de ciclos de PE.

Usamos a mesma metodologia descrita na Seção 4.2.2 para isolar os efeitos da carga de trabalho dos efeitos dos ciclos de PE, isolando os meses de operação do inversor com base nos ciclos de PE anteriores e, em seguida, determinamos os coeficientes de correlação separadamente para cada contêiner.

Vimos que a correlação entre o número de operações de leitura em um determinado mês de operação em disco e o valor RBER no mesmo mês é preservada para os modelos MLC-B e SLC-B, mesmo com a limitação dos ciclos de PE. Também repetimos uma análise semelhante, onde excluímos o efeito das operações de leitura no número de operações de gravação e exclusão paralelas e concluímos que a correlação entre o RBER e o número de operações de leitura é preservada para o modelo SLC-B.

A Figura 1 também mostra a correlação entre o RBER e as operações de gravação e exclusão, por isso repetimos a mesma análise para operações de leitura, gravação e exclusão. Concluímos que, embora limitando os efeitos dos loops de PE e das operações de leitura, não há relação entre o valor RBER e o número de operações de gravação e exclusão.

Portanto, existem modelos de disco nos quais os erros de violação de leitura têm um impacto significativo no RBER. Por outro lado, não há evidências de que o RBER seja afetado por erros de gravação ou erros de exclusão incompletos.

4.2.4 RBER e litografia.


As diferenças no tamanho dos objetos podem explicar parcialmente as diferenças nos valores de RBER para modelos de disco usando a mesma tecnologia, isto é, MLC ou SLC. (consulte a Tabela 1 para uma visão geral da litografia dos vários modelos envolvidos neste estudo).

Por exemplo, 2 modelos SLC com litografia 34nm (modelos SLC-A e SLC-D) possuem RBER, que é uma ordem de magnitude superior a 2 modelos com litografia microeletrônica 50 nm (modelos SLC-B e SLC-C). No caso dos modelos MLC, apenas o modelo 43nm (MLC-B) possui uma RBER mediana, que é 50% superior a três outros modelos com litografia a 50 nm. Além disso, essa diferença de RBER aumenta 4 vezes com o desgaste do disco, como mostra a Figura 2. Finalmente, uma litografia mais fina pode explicar o RBER mais alto para as unidades eMLC em comparação com as unidades MLC. No geral, temos evidências claras de que a litografia afeta o RBER.

4.2.5 A presença de outros erros.


Investigamos a relação entre o RBER e outros tipos de erros, por exemplo, erros fatais, erros de tempo limite, etc., em particular, se o valor do RBER se tornará maior após um mês devido à influência de outros tipos de erros.

A Figura 1 mostra que, embora o valor de RBER do mês anterior permita prever valores futuros de RBER (coeficiente de correlação acima de 0,8), não há correlação significativa entre erros fatais e RBER (o grupo de elementos à direita na Figura 1). Para outros tipos de erros, o coeficiente de correlação é ainda mais baixo (não mostrado na figura). Continuamos a investigar a relação entre RBER e erros fatais na seção 5.2 deste artigo.

4.2.6 A influência de outros fatores.


Encontramos evidências de que existem fatores que têm um impacto significativo no RBER e que não podem ser responsáveis ​​pelos dados que recebemos. Em particular, notamos que o RBER para um modelo de disco específico varia dependendo do cluster no qual o disco está implantado. Um bom exemplo é a Figura 4, que mostra a dependência do RBER nos ciclos de PE para unidades MLC-D em três clusters diferentes (linhas tracejadas) e sua comparação com o RBER para este modelo em relação ao número total de discos (linha sólida). Acreditamos que essas diferenças persistem mesmo quando limitamos a influência de fatores como a idade do disco ou o número de operações de leitura.

Uma explicação possível para esse fator são as diferenças no tipo de carga de trabalho em diferentes clusters, pois observamos que os clusters cuja carga de trabalho tem os maiores coeficientes de leitura / gravação têm o RBER mais alto.


Fig. 4 a), b). Os valores medianos de RBER, dependendo dos ciclos de PE em três grupos diferentes, e a dependência do coeficiente de leitura / gravação no número de ciclos de PE em três grupos diferentes.

Por exemplo, a Figura 4 (b) mostra os coeficientes de leitura / gravação de diferentes clusters para o modelo de unidade MLC-D. No entanto, a taxa de leitura / gravação não explica as diferenças entre os clusters para todos os modelos; portanto, pode haver outros fatores que nossos dados não consideram, por exemplo, fatores ambientais ou outros parâmetros externos da carga de trabalho.

4.3 RBER durante testes de durabilidade acelerados.


A maior parte do trabalho científico, bem como os testes realizados na compra de mídia em escala industrial, prevêem a confiabilidade dos dispositivos em campo com base nos resultados dos testes acelerados de durabilidade. Decidimos entender como os resultados desses testes correspondem à experiência prática da operação de mídia de armazenamento em estado sólido.
Uma análise dos resultados dos testes realizados de acordo com a metodologia geral de testes acelerados para equipamentos fornecidos aos data centers do Google mostrou que os valores de campo do RBER são significativamente mais altos do que o previsto. Por exemplo, para o modelo eMLC-a, a RBER mediana para discos operados em campo (no final do teste, o número de ciclos de PE atingiu 600) era 1e-05, enquanto que, de acordo com os resultados de testes acelerados preliminares, esse valor RBER deveria corresponder a 4000 ciclos de PE. Isso indica que é muito difícil prever com precisão o valor da RBER no campo, com base nas estimativas da RBER obtidas em testes de laboratório.

Também observamos que alguns tipos de erros são difíceis de reproduzir durante testes acelerados. Por exemplo, no caso do modelo MLC-B, quase 60% das unidades em campo apresentam erros incorrigíveis e quase 80% das unidades possuem blocos danificados. No entanto, durante testes acelerados de durabilidade, nenhum dos seis dispositivos apresentou erros incorrigíveis até que os discos atingissem mais de três vezes o limite do ciclo de PE. Para modelos de eMLC, erros incorrigíveis no campo ocorreram em mais de 80% dos discos, enquanto em testes acelerados, esses erros ocorreram após atingir 15.000 ciclos de PE.

Também revisamos o RBER descrito em um trabalho de pesquisa anterior, que foi baseado em experimentos em ambiente controlado, e chegamos à conclusão de que o intervalo de variação nos valores é extremamente alto. Por exemplo, L.M. Grupos e outros em seu trabalho de 2009–2012 indicam valores RBER para discos que estão próximos de atingir os valores limite para ciclos de PE. Por exemplo, para dispositivos SLC e MLC com tamanho litográfico semelhante ao usado em nosso trabalho (25-50nm), o valor RBER varia de 1e-08 a 1e-03 e, para a maioria dos modelos de inversores testados, o valor RBER estava próximo de 1e-06.

Em nosso estudo, três modelos de disco que atingiram o limite do ciclo PE tiveram RBERs variando de 3e-08 a 8e-08. Mesmo considerando que nossos números são limites mais baixos e, no pior dos casos, eles podem levar valores 16 vezes maiores, ou levando em consideração o RBER percentil 95, os valores que obtivemos ainda são muito mais baixos.

Em geral, embora os valores reais de RBER no campo sejam mais altos do que os valores previstos com base em testes de durabilidade acelerados, eles ainda são mais baixos do que a maioria dos RBERs para dispositivos semelhantes relatados em outros trabalhos de pesquisa e calculados com base em análises laboratoriais. testes. Isso significa que você não deve confiar nos valores previstos de RBER no campo, que foram obtidos com base nos resultados dos testes de durabilidade acelerados.

5. Erros irrecuperáveis.


Dada a ocorrência generalizada de erros incorrigíveis (UE), discutidos na seção 3 deste artigo, nesta seção, estudamos suas características com mais detalhes. Começamos discutindo qual métrica usar para medir UEs, considere como eles se relacionam com o RBER e como vários fatores influenciam os UEs.

5.1 Por que o coeficiente UBER não faz sentido.


A métrica padrão que caracteriza os erros incorrigíveis é a UBER, a proporção de erros de bits incorrigíveis, ou seja, a proporção do número de erros de bits incorrigíveis em relação ao número total de bits lidos.

Essa métrica implica implicitamente que o número de erros incorrigíveis está de alguma forma associado ao número de bits lidos, o que significa que deve ser normalizado por esse número.

Essa suposição é verdadeira para erros corrigíveis, onde se verifica que o número de erros observados em um determinado mês se correlaciona fortemente com o número de operações de leitura no mesmo período de tempo (o coeficiente de correlação de Spearman é maior que 0,9). A razão para uma correlação tão forte é que mesmo um bit danificado, enquanto o corrige com o ECC, continuará aumentando o número de erros a cada operação de leitura endereçada a ele, uma vez que a avaliação da célula que contém o bit danificado não é corrigida imediatamente quando um erro é detectado (discos reescreva periodicamente as páginas com bits danificados).

A mesma suposição não funciona para erros incorrigíveis. Um erro irrecuperável exclui o uso adicional do bloco danificado; portanto, uma vez detectado, esse bloco não afetará o número de erros no futuro.

Para confirmar oficialmente essa suposição, usamos várias métricas para medir a relação entre o número de operações de leitura em um determinado mês de operação do disco e o número de erros fatais no mesmo período, incluindo vários coeficientes de correlação (Pearson, Spearman, Kendall), bem como um estudo visual dos gráficos . Além do número de erros incorrigíveis, também examinamos a frequência de incidentes com erros incorrigíveis (por exemplo, a probabilidade de um disco ter pelo menos um desses incidentes por um determinado período de tempo) e seu relacionamento com as operações de leitura.
Não encontramos evidências de correlação entre o número de leituras e o número de erros fatais. Para todos os modelos de inversores, os coeficientes de correlação foram inferiores a 0,02 e os gráficos não mostraram nenhum aumento no UE com um aumento no número de operações de leitura.

Na seção 5.4 deste artigo, consideramos que as operações de gravação e exclusão também não têm relação com erros incorrigíveis; portanto, a definição alternativa de UBER, que é normalizada por operações de gravação ou exclusão em vez de operações de leitura, não tem significado.

Portanto, concluímos que o UBER não é uma métrica significativa, com a possível exceção de testes em ambientes controlados, onde o número de operações de leitura é definido pelo pesquisador. Se o UBER for usado como uma métrica durante testes de campo, reduzirá artificialmente a taxa de erros de unidades com um número alto de leituras e aumentará artificialmente essa frequência para unidades com um número baixo de leituras, pois erros incorrigíveis ocorrem independentemente do número de operações de leitura.

5.2 Erros fatais e RBER.


A relevância do RBER é explicada pelo fato de servir como uma medida para determinar a confiabilidade geral do inversor, em particular, com base na probabilidade de ocorrência de erros incorrigíveis. Em seu trabalho, N. Mielke e outros em 2008 foram os primeiros a determinar a frequência esperada de erros fatais em função do RBER. Desde então, muitos desenvolvedores de sistemas usaram métodos semelhantes, por exemplo, estimando a frequência esperada de erros incorrigíveis, dependendo do RBER e do tipo de ECC.

O objetivo desta seção é caracterizar o quão bem o RBER prevê erros incorrigíveis. Vamos começar com a Figura 5a, que mostra os gráficos do valor RBER mediano para vários modelos de unidades de primeira geração, em relação à fração dos dias de operação durante os quais ocorreram erros incorrigíveis no UE. Note-se que alguns dos 16 modelos mostrados no gráfico não são mostrados na Tabela 1 devido à falta de informações analíticas.


Fig. 5a Correlação da RBER mediana com erros incorrigíveis para vários modelos de inversores.


Fig. 5b Correlação da RBER mediana com erros incorrigíveis para diferentes unidades do mesmo modelo.

Lembre-se de que todos os modelos da mesma geração usam o mesmo mecanismo de ECC; portanto, as diferenças entre os modelos não dependem das diferenças de ECC. Não vimos uma correlação entre os incidentes RBER e UE. Criamos o mesmo gráfico para o RBER do percentil 95 em comparação com a probabilidade do UE e novamente não vimos nenhuma correlação.

Em seguida, repetimos a análise ao detalhar discos individuais, ou seja, tentamos descobrir se existem discos em que um valor RBER mais alto corresponde a uma frequência UE mais alta. Como exemplo, a Figura 5b mostra os gráficos do valor médio de RBER para cada unidade de modelo MLC-c versus o número de UEs (os resultados são semelhantes aos obtidos para o RBER com percentil 95). Novamente, não vimos nenhuma correlação entre RBER e UE.

Finalmente, realizamos uma análise de tempo mais precisa para determinar se os meses de operação de unidades com RBER mais alto corresponderiam aos meses durante os quais os UEs ocorreram. A Figura 1 já indicava que o coeficiente de correlação entre erros incorrigíveis e RBER é muito baixo. Também experimentamos várias maneiras de traçar a probabilidade do UE em função do RBER e não encontramos nenhum sinal de correlação.

Assim, concluímos que o RBER é um indicador não confiável para prever UEs. Isso pode significar que os mecanismos de falha que levam ao RBER são diferentes dos mecanismos que levam à ocorrência de erros incorrigíveis (por exemplo, erros contidos em células separadas, contra problemas maiores que surgem com todo o dispositivo).

5.3 Erros fatais e desgaste.


Como o desgaste é um dos principais problemas da memória flash, a Figura 6 mostra a probabilidade diária de erros incorretos na unidade, dependendo dos ciclos de PE.


Figura 6. A probabilidade diária de erros de unidade incorrigíveis, dependendo dos ciclos de PE.

Observamos que a probabilidade do UE aumenta continuamente com a idade da unidade. No entanto, como no caso do RBER, o aumento é mais lento do que o normalmente esperado: os gráficos mostram que os UEs crescem com os ciclos de PE linearmente e não exponencialmente.

As duas conclusões que fizemos para o RBER também são aplicáveis ​​ao UE: em primeiro lugar, não há um aumento claro na possibilidade de erros após atingir o limite dos ciclos de PE, por exemplo, na Figura 6 para o modelo MLC-D, cujo limite de ciclo de PE é 3000. segundo, a frequência de ocorrência de erros varia entre modelos diferentes, mesmo dentro da mesma classe. No entanto, essas diferenças não são tão grandes quanto as do RBER.

Finalmente, para apoiar nossas descobertas na Seção 5.2, descobrimos que, dentro da mesma classe de modelos (MLC vs. SLC), os modelos com os menores valores de RBER para um determinado número de ciclos de PE não são necessariamente aqueles que têm a menor probabilidade de ocorrência da UE. Por exemplo, para 3000 ciclos PE, as unidades do modelo MLC-D tinham valores RBER 4 vezes menores que os modelos MLC-B, no entanto, a probabilidade de UE com o mesmo número de ciclos PE nos modelos MLC-D era um pouco maior que a dos modelos MLC-B.


Fig. 7. Probabilidade mensal de ocorrência de erros de unidade incorrigíveis em função da dependência da presença de erros anteriores de vários tipos.

5.4 Erros fatais e carga de trabalho.


Pelas mesmas razões que a carga de trabalho pode afetar o RBER (consulte a seção 4.2.3), pode-se esperar que isso também afete o UE. Por exemplo, como observamos que os erros de violação de leitura afetam o RBER, as operações de leitura também podem aumentar a probabilidade de erros incorrigíveis.

Realizamos um estudo detalhado do impacto da carga de trabalho nos UEs. No entanto, como observado na seção 5.1, não encontramos a relação entre o UE e o número de operações de leitura. Repetimos a mesma análise para operações de gravação e exclusão e novamente não vimos nenhuma correlação.
Observe que, à primeira vista, você pode ver uma contradição com nossa observação anterior, segundo a qual erros incorrigíveis se correlacionam com os ciclos de PE. Portanto, uma correlação com o número de operações de gravação e exclusão pode ser esperada.

PE PE, , . , , / / , , . . / / .

, , .

Obrigado por ficar conosco. Você gosta dos nossos artigos? Deseja ver materiais mais interessantes? Ajude-nos fazendo um pedido ou recomendando a seus amigos, um desconto de 30% para os usuários da Habr em um servidor analógico exclusivo que inventamos para você: Toda a verdade sobre o VPS (KVM) E5-2650 v4 (6 núcleos) 10GB DDR4 240GB SSD 1Gbps de US $ 20 ou como dividir o servidor? (as opções estão disponíveis com RAID1 e RAID10, até 24 núcleos e até 40GB DDR4).

Dell R730xd 2 vezes mais barato? Somente temos 2 TVs Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV a partir de US $ 199 na Holanda! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - a partir de US $ 99! Leia sobre Como criar um prédio de infraestrutura. classe usando servidores Dell R730xd E5-2650 v4 custando 9.000 euros por um centavo?

Source: https://habr.com/ru/post/pt472378/


All Articles