Fiabilité du flash: attendue et inattendue. Partie 2. XIV conférence de l'association USENIX. Technologies de stockage de fichiers

Fiabilité du flash: attendue et inattendue. Partie 1. XIV conférence de l'association USENIX. Technologies de stockage de fichiers

4.2.2. RBER et âge des disques (hors cycles PE).


La figure 1 montre une corrélation significative entre le RBER et l'âge, qui est égal au nombre de mois de fonctionnement du disque sur le terrain. Cependant, cela peut être une fausse corrélation, car il est probable que les disques plus anciens ont plus de PE et donc RBER est plus interconnecté avec les cycles de PE.

Afin d'éliminer l'effet de l'âge sur l'usure causée par les cycles PE, nous avons regroupé tous les mois de fonctionnement dans des conteneurs, en utilisant les déciles de la distribution du cycle PE comme une coupure entre les conteneurs, par exemple, le premier conteneur contient tous les mois de fonctionnement du disque jusqu'au premier décile de la distribution du cycle PE, etc. plus loin. Nous avons vérifié qu'au sein de chaque conteneur, la corrélation entre les cycles PE et RBER est plutôt faible (puisque chaque conteneur ne couvre qu'une petite plage de cycles PE), puis nous avons calculé le coefficient de corrélation entre RBER et l'âge du disque pour chaque conteneur séparément.

Nous avons effectué cette analyse séparément pour chaque modèle, car les corrélations observées ne sont pas causées par des différences entre les modèles plus jeunes et plus anciens, mais exclusivement par l'âge des disques du même modèle. Nous avons observé que même après avoir limité l'effet de l'influence des cycles d'EP comme décrit ci-dessus, pour tous les modèles de disques, il existait toujours une corrélation significative entre le nombre de mois de fonctionnement du disque sur le terrain et son RBER (les coefficients de corrélation variaient de 0,2 à 0,4).


Fig. 3. La relation entre le RBER et le nombre de cycles PE pour les nouveaux et anciens variateurs indique que l'âge du variateur affecte la valeur RBER indépendamment des cycles PE provoqués par l'usure.

Nous avons également visualisé graphiquement l'influence de l'âge du lecteur en séparant les jours de fonctionnement du disque à l'âge "jeune" jusqu'à 1 an et les jours de fonctionnement du disque au cours de l'âge de 4 ans, après quoi nous avons tracé la dépendance du RBER de chaque groupe sur le nombre de cycles PE. La figure 3 montre ces résultats pour le modèle de lecteur MLC-D. Nous voyons une différence notable dans les valeurs du coefficient RBER entre les groupes d'anciens et de nouveaux disques sur toutes les valeurs des cycles PE.

Nous en avons conclu que l'âge, mesuré par les jours d'utilisation du disque sur le terrain, a un effet significatif sur le RBER, indépendamment de l'usure des cellules de mémoire due aux effets des cycles d'EP. Cela signifie que d'autres facteurs, tels que le vieillissement du silicium, jouent un rôle important dans la détérioration physique du disque.

4.2.3. RBER et charge de travail.


On pense que les erreurs sur les bits sont causées par l'un des quatre mécanismes:

  1. Erreurs de rétention lorsqu'une cellule mémoire perd des données au fil du temps
    Erreurs de perturbation de lecture, dans lesquelles une opération de lecture endommage le contenu d'une cellule voisine;
  2. Ecrire des erreurs de perturbation, dans lesquelles une opération de lecture endommage le contenu d'une cellule voisine;
  3. des erreurs d'effacement incomplètes lorsque l'opération d'effacement ne supprime pas complètement le contenu de la cellule.


Les erreurs liées aux trois derniers types (perturbation de lecture, perturbation d'écriture, effacement incomplet) sont en corrélation avec la charge de travail, donc la compréhension de la corrélation entre le RBER et la charge de travail nous aide à comprendre la prévalence de divers mécanismes d'erreur. Dans une étude récente, «Une étude à grande échelle des défaillances de la mémoire flash sur le terrain» (MEZA, J., WU, Q., KUMAR, S., MUTLU, O. «Une étude à grande échelle des défaillances de la mémoire flash sur le terrain». Actes de la Conférence internationale ACM SIGMETRICS 2015 sur la mesure et la modélisation des systèmes informatiques, New York, 2015, SIGMETRICS '15, ACM, pp. 177-190) ont conclu que les erreurs de stockage prédominent sur le terrain, tandis que les erreurs de lecture sont assez mineures.

La figure 1 montre une relation significative entre la valeur RBER pour un mois donné de fonctionnement du disque et le nombre d'opérations de lecture, d'écriture et d'effacement au cours du même mois pour certains modèles (par exemple, un coefficient de corrélation supérieur à 0,2 pour le modèle MLC-B et supérieur à 0,6 pour le modèle SLC-B). Cependant, il peut s'agir d'une fausse corrélation, car la charge de travail mensuelle peut être liée au nombre total de cycles d'EP.

Nous avons utilisé la même méthodologie décrite à la section 4.2.2 pour isoler les effets de la charge de travail des effets des cycles PE en isolant les mois de fonctionnement du variateur sur la base des cycles PE précédents, puis nous avons déterminé les coefficients de corrélation séparément pour chaque conteneur.

Nous avons vu que la corrélation entre le nombre d'opérations de lecture dans un mois donné de fonctionnement du disque et la valeur RBER au cours du même mois est préservée pour les modèles MLC-B et SLC-B, même avec la limitation des cycles PE. Nous avons également répété une analyse similaire, où nous avons exclu l'effet des opérations de lecture sur le nombre d'opérations d'écriture et d'effacement parallèles, et conclu que la corrélation entre RBER et le nombre d'opérations de lecture est préservée pour le modèle SLC-B.

La figure 1 montre également la corrélation entre le RBER et les opérations d'écriture et d'effacement, nous avons donc répété la même analyse pour les opérations de lecture, d'écriture et d'effacement. Nous avons conclu que tout en limitant les effets des boucles PE et des opérations de lecture, il n'y a pas de relation entre la valeur RBER et le nombre d'opérations d'écriture et d'effacement.

Ainsi, il existe des modèles de disque où les erreurs de violation de lecture ont un impact significatif sur RBER. D'un autre côté, rien ne prouve que RBER soit affecté par des erreurs d'écriture ou des erreurs d'effacement incomplètes.

4.2.4 RBER et lithographie.


Les différences de taille des objets peuvent expliquer en partie les différences dans les valeurs RBER pour les modèles de disques utilisant la même technologie, c'est-à-dire MLC ou SLC. (voir le tableau 1 pour un aperçu de la lithographie des différents modèles impliqués dans cette étude).

Par exemple, 2 modèles SLC avec lithographie 34 nm (modèles SLC-A et SLC-D) ont RBER, qui est un ordre de grandeur supérieur à 2 modèles avec lithographie microélectronique 50 nm (modèles SLC-B et SLC-C). Dans le cas des modèles MLC, seul le modèle 43 nm (MLC-B) a un RBER médian, qui est 50% plus élevé que 3 autres modèles avec une lithographie à 50 nm. De plus, cette différence de RBER augmente de 4 fois à mesure que le disque s'use, comme le montre la figure 2. Enfin, une lithographie plus fine peut expliquer le RBER plus élevé pour les lecteurs eMLC par rapport aux lecteurs MLC. Dans l'ensemble, nous avons des preuves claires que la lithographie affecte le RBER.

4.2.5. La présence d'autres erreurs.


Nous avons étudié la relation entre le RBER et d'autres types d'erreurs, par exemple, les erreurs fatales, les erreurs de temporisation, etc., en particulier, si la valeur du RBER deviendra plus élevée après un mois sous l'influence d'autres types d'erreurs.

La figure 1 montre que, bien que la valeur RBER du mois précédent nous permette de prédire les futures valeurs RBER (coefficient de corrélation supérieur à 0,8), il n'y a pas de corrélation significative entre les erreurs fatales et RBER (le groupe d'éléments dans l'extrême droite de la figure 1). Pour d'autres types d'erreurs, le coefficient de corrélation est encore plus faible (non représenté sur la figure). Nous avons continué à étudier la relation entre le RBER et les erreurs fatales dans la section 5.2 de cet article.

4.2.6. L'influence d'autres facteurs.


Nous avons trouvé des preuves qu'il existe des facteurs qui ont un impact significatif sur le RBER et qui ne pouvaient pas rendre compte des données que nous avons reçues. En particulier, nous avons remarqué que le RBER pour un modèle de disque particulier varie en fonction du cluster dans lequel le disque est déployé. Un bon exemple est la figure 4, qui montre la dépendance de RBER sur les cycles PE pour les lecteurs MLC-D dans trois clusters différents (lignes en pointillés) et sa comparaison avec RBER pour ce modèle par rapport au nombre total de disques (ligne continue). Nous pensons que ces différences persistent même lorsque nous limitons l'influence de facteurs tels que l'âge du disque ou le nombre d'opérations de lecture.

Une explication possible de ce facteur est les différences dans le type de charge de travail dans les différents clusters, car nous observons que les clusters dont la charge de travail a les coefficients de lecture / écriture les plus élevés ont le RBER le plus élevé.


Fig. 4 a), b). Les valeurs RBER médianes dépendent des cycles PE dans trois grappes différentes et la dépendance du coefficient de lecture / écriture sur le nombre de cycles PE dans trois grappes différentes.

Par exemple, la figure 4 (b) montre les coefficients de lecture / écriture de différents clusters pour le modèle de lecteur MLC-D. Cependant, le rapport lecture / écriture n'explique pas les différences entre les clusters pour tous les modèles, par conséquent, il peut y avoir d'autres facteurs que nos données ne prennent pas en compte, par exemple, les facteurs environnementaux ou d'autres paramètres externes de la charge de travail.

4.3. RBER lors des tests de durabilité accélérés.


La plupart des travaux scientifiques, ainsi que des tests effectués lors de l'achat de supports à l'échelle industrielle, prédisent la fiabilité des appareils sur le terrain en fonction des résultats des tests de durabilité accélérés. Nous avons décidé de comprendre comment les résultats de ces tests correspondent à l'expérience pratique de l'utilisation de supports de stockage à semi-conducteurs.
Une analyse des résultats des tests effectuée selon la méthodologie générale des tests accélérés pour les équipements fournis aux centres de données Google a montré que les valeurs de champ RBER sont nettement plus élevées que prévu. Par exemple, pour le modèle eMLC-a, le RBER médian pour les disques opérés sur le terrain (à la fin du test, le nombre de cycles PE a atteint 600) était de 1e-05, tandis que selon les résultats des tests accélérés préliminaires, une telle valeur RBER aurait dû correspondre à plus de 4000 cycles de PE. Cela indique qu'il est très difficile de prédire avec précision la valeur RBER sur le terrain sur la base des estimations RBER obtenues à partir de tests de laboratoire.

Nous avons également noté que certains types d'erreurs sont difficiles à reproduire lors de tests accélérés. Par exemple, dans le cas du modèle MLC-B, près de 60% des disques sur le terrain présentent des erreurs non corrigibles et près de 80% des disques ont des blocs endommagés. Cependant, lors des tests de durabilité accélérés, aucun des six appareils n'a rencontré d'erreurs non corrigibles jusqu'à ce que les disques atteignent plus de trois fois la limite de cycle PE. Pour les modèles eMLC, des erreurs non corrigibles sur le terrain se sont produites dans plus de 80% des disques, tandis que dans les tests accélérés, ces erreurs se sont produites après avoir atteint 15 000 cycles PE.

Nous avons également examiné le RBER décrit dans un précédent document de recherche, qui était basé sur des expériences dans un environnement contrôlé, et sommes arrivés à la conclusion que la plage de variation des valeurs est extrêmement élevée. Par exemple, L.M. Les groupes et autres dans leurs travaux de 2009 à 2012 indiquent des valeurs RBER pour les disques qui sont proches d'atteindre les valeurs limites pour les cycles PE. Par exemple, pour les appareils SLC et MLC avec une taille de lithographie similaire à celle utilisée dans notre travail (25-50 nm), la valeur RBER varie de 1e-08 à 1e-03, et pour la plupart des modèles de variateurs testés, la valeur RBER était proche de 1e-06.

Dans notre étude, trois modèles de disques qui ont atteint la limite de cycle PE avaient des RBER allant de 3e-08 à 8e-08. Même en tenant compte du fait que nos nombres sont des bornes inférieures et dans le pire des cas, ils peuvent prendre des valeurs 16 fois plus grandes, ou en tenant compte du RBER du 95e centile, les valeurs que nous avons obtenues sont encore beaucoup plus faibles.

En général, bien que les valeurs réelles de RBER sur le terrain soient plus élevées que les valeurs prédites sur la base de tests de durabilité accélérés, elles sont toujours inférieures à la plupart des RBER pour des dispositifs similaires rapportés dans d'autres documents de recherche, et qui sont calculés sur la base de laboratoire tests. Cela signifie que vous ne devez pas vous fier aux valeurs prédites de RBER sur le terrain, qui ont été obtenues sur la base des résultats des tests de durabilité accélérés.

5. Erreurs irrécupérables.


Compte tenu de la fréquence des erreurs non corrigibles (UE), qui ont été discutées dans la section 3 de cet article, dans cette section, nous étudions leurs caractéristiques plus en détail. Nous commençons par discuter de la métrique à utiliser pour mesurer les UE, examinons comment ils se rapportent au RBER et comment divers facteurs influencent les UE.

5.1. Pourquoi le coefficient UBER n'a pas de sens.


La métrique standard caractérisant les erreurs non corrigibles est l'UBER, le rapport des erreurs binaires non corrigibles, c'est-à-dire le rapport du nombre d'erreurs binaires non corrigibles au nombre total de bits lus.

Cette métrique suppose implicitement que le nombre d'erreurs non corrigibles est en quelque sorte lié au nombre de bits lus, ce qui signifie qu'il doit être normalisé par ce nombre.

Cette hypothèse est vraie pour les erreurs corrigibles, où l'on constate que le nombre d'erreurs observées au cours d'un mois donné est fortement corrélé avec le nombre d'opérations de lecture sur la même période (le coefficient de corrélation de Spearman est supérieur à 0,9). La raison d'une telle corrélation forte est que même un bit endommagé, tout en le corrigeant avec ECC, continuera d'augmenter le nombre d'erreurs à chaque opération de lecture qui lui est adressée, car l'évaluation de la cellule contenant le bit endommagé n'est pas corrigée immédiatement lorsqu'une erreur est détectée (disques ne réécrivez que périodiquement les pages avec des bits endommagés)

La même hypothèse ne fonctionne pas pour les erreurs non corrigibles. Une erreur irrécupérable exclut une utilisation ultérieure du bloc endommagé, par conséquent, une fois détecté, un tel bloc n'affectera pas le nombre d'erreurs à l'avenir.

Pour confirmer officiellement cette hypothèse, nous avons utilisé diverses métriques pour mesurer la relation entre le nombre d'opérations de lecture dans un mois donné de fonctionnement du disque et le nombre d'erreurs fatales pour la même période, y compris divers coefficients de corrélation (Pearson, Spearman, Kendall), ainsi qu'une étude visuelle des graphiques . Outre le nombre d'erreurs non corrigibles, nous avons également examiné la fréquence des incidents comportant des erreurs non corrigibles (par exemple, la probabilité qu'un disque contienne au moins un incident de ce type pendant une certaine période de temps) et leur relation avec les opérations de lecture.
Nous n'avons trouvé aucune preuve d'une corrélation entre le nombre de lectures et le nombre d'erreurs fatales. Pour tous les modèles d'entraînement, les coefficients de corrélation étaient inférieurs à 0,02 et les graphiques n'ont montré aucune augmentation de l'UE avec une augmentation du nombre d'opérations de lecture.

Dans la section 5.4 de cet article, nous considérons que les opérations d'écriture et d'effacement n'ont pas non plus de relation avec les erreurs non corrigibles; par conséquent, la définition alternative d'UBER, qui est normalisée par des opérations d'écriture ou d'effacement au lieu d'opérations de lecture, n'a aucune signification.

Par conséquent, nous concluons que UBER n'est pas une métrique significative, à l'exception peut-être des tests dans des environnements contrôlés où le nombre d'opérations de lecture est fixé par l'expérimentateur. Si UBER est utilisé comme métrique pendant les essais sur le terrain, il réduira artificiellement le taux d'erreur pour les lecteurs avec un nombre élevé de lectures et augmentera artificiellement cette fréquence pour les lecteurs avec un faible nombre de lectures, car des erreurs non corrigibles se produisent quel que soit le nombre d'opérations de lecture.

5.2. Erreurs fatales et RBER.


La pertinence du RBER s'explique par le fait qu'il sert à mesurer la fiabilité globale du variateur, en particulier, en fonction de la probabilité d'occurrence d'erreurs non corrigibles. Dans leur travail, N. Mielke et d'autres en 2008 ont été les premiers à déterminer la fréquence attendue des erreurs fatales en fonction du RBER. Depuis lors, de nombreux développeurs de systèmes ont utilisé des méthodes similaires, par exemple, pour estimer la fréquence attendue des erreurs non corrigibles en fonction du RBER et du type d'ECC.

Le but de cette section est de caractériser la façon dont RBER prédit les erreurs non corrigibles. Commençons par la figure 5a, qui montre les graphiques de la valeur RBER médiane pour un certain nombre de modèles de disques de première génération, par rapport à la fraction des jours de leur fonctionnement pendant laquelle des erreurs UE non corrigibles se sont produites. Il convient de noter que certains des 16 modèles présentés dans le graphique ne figurent pas dans le tableau 1 en raison d'un manque d'informations analytiques.


Fig. 5a. Corrélation du RBER médian avec des erreurs non corrigibles pour différents modèles de variateurs.


Fig. 5b. Corrélation du RBER médian avec des erreurs non corrigibles pour différents lecteurs du même modèle.

Rappelez-vous que tous les modèles de la même génération utilisent le même mécanisme ECC, de sorte que les différences entre les modèles ne dépendent pas des différences ECC. Nous n'avons pas vu de corrélation entre les incidents RBER et UE. Nous avons créé le même graphique pour le 95e percentile RBER par rapport à la probabilité de l'UE et encore une fois, nous n'avons vu aucune corrélation.

Ensuite, nous avons répété l'analyse en détaillant les disques individuels, c'est-à-dire que nous avons essayé de savoir s'il y avait des disques où une valeur RBER plus élevée correspond à une fréquence UE plus élevée. À titre d'exemple, la figure 5b montre les graphiques de la valeur RBER médiane pour chaque lecteur de modèle MLC-c par rapport au nombre d'UE (les résultats sont similaires à ceux obtenus pour le RBER au 95e centile). Encore une fois, nous n'avons vu aucune corrélation entre RBER et UE.

Enfin, nous avons effectué une analyse temporelle plus précise pour déterminer si les mois de fonctionnement des variateurs avec un RBER plus élevé correspondraient aux mois pendant lesquels les UE se sont produits. La figure 1 indique déjà que le coefficient de corrélation entre les erreurs non corrigibles et le RBER est très faible. Nous avons également expérimenté différentes façons de tracer la probabilité d'UE en fonction de RBER et n'avons trouvé aucun signe de corrélation.

Ainsi, nous avons conclu que RBER est un indicateur peu fiable pour prédire les UE. Cela peut signifier que les mécanismes de défaillance conduisant au RBER sont différents des mécanismes conduisant à l'apparition d'erreurs non corrigibles (par exemple, des erreurs contenues dans des cellules distinctes, contre des problèmes plus importants qui surviennent avec l'ensemble du dispositif).

5.3. Erreurs fatales et usure.


L'usure étant l'un des principaux problèmes de la mémoire flash, la figure 6 montre la probabilité quotidienne d'erreurs de lecteur non corrigibles en fonction des cycles PE.


Figure 6. La probabilité quotidienne d'erreurs de lecteur non corrigibles en fonction des cycles PE.

On note que la probabilité d'UE augmente continuellement avec l'âge du lecteur. Cependant, comme dans le cas du RBER, l'augmentation est plus lente que d'habitude: les graphiques montrent que les UE croissent avec les cycles PE de manière linéaire et non exponentielle.

Les deux conclusions que nous avons tirées pour RBER sont également applicables à l'UE: premièrement, il n'y a pas d'augmentation claire de la possibilité d'erreurs après avoir atteint la limite des cycles PE, par exemple, dans la figure 6 pour le modèle MLC-D, dont la limite de cycle PE est de 3000. In- deuxièmement, le taux d'erreur varie selon les modèles, même au sein d'une même classe. Cependant, ces différences ne sont pas aussi importantes que pour le RBER.

Enfin, à l'appui de nos constatations à la section 5.2, nous avons constaté que, dans la même classe de modèles (MLC vs SLC), les modèles avec les valeurs RBER les plus faibles pour un nombre donné de cycles d'EP ne sont pas nécessairement ceux qui ont la plus faible probabilité d'occurrence d'UE. Par exemple, pour 3000 cycles PE, les variateurs du modèle MLC-D avaient des valeurs RBER 4 fois plus faibles que les modèles MLC-B, cependant, la probabilité d'UE avec le même nombre de cycles PE dans les modèles MLC-D était légèrement plus élevée que celle des modèles MLC-B.


Fig. 7. Probabilité mensuelle d'apparition d'erreurs d'entraînement non corrigibles en fonction de la dépendance à la présence d'erreurs antérieures de divers types.

5.4. Erreurs fatales et charge de travail.


Pour les mêmes raisons que la charge de travail peut affecter le RBER (voir la section 4.2.3), on peut s'attendre à ce qu'elle affecte également l'UE. Par exemple, puisque nous avons observé que les erreurs de violation de lecture affectent le RBER, les opérations de lecture peuvent également augmenter la probabilité d'erreurs non corrigibles.

Nous avons mené une étude détaillée de l'impact de la charge de travail sur les UE. Cependant, comme indiqué dans la section 5.1, nous n'avons pas trouvé la relation entre l'UE et le nombre d'opérations de lecture. Nous avons répété la même analyse pour les opérations d'écriture et d'effacement et nous n'avons à nouveau constaté aucune corrélation.
Notez qu'à première vue, vous pouvez voir une contradiction avec notre observation précédente, selon laquelle les erreurs non corrigibles sont en corrélation avec les cycles d'EP. Par conséquent, une corrélation avec le nombre d'opérations d'écriture et d'effacement pourrait être attendue.

PE PE, , . , , / / , , . . / / .

, , .

Merci de rester avec nous. Aimez-vous nos articles? Vous voulez voir des matériaux plus intéressants? Soutenez-nous en passant une commande ou en le recommandant à vos amis, une réduction de 30% pour les utilisateurs Habr sur un serveur d'entrée de gamme analogique unique que nous avons inventé pour vous: Toute la vérité sur VPS (KVM) E5-2650 v4 (6 cœurs) 10 Go DDR4 240 Go SSD 1 Gbps à partir de 20 $ ou comment diviser le serveur? (les options sont disponibles avec RAID1 et RAID10, jusqu'à 24 cœurs et jusqu'à 40 Go de DDR4).

Dell R730xd 2 fois moins cher? Nous avons seulement 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV à partir de 199 $ aux Pays-Bas! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - à partir de 99 $! Pour en savoir plus sur la création d'un bâtiment d'infrastructure. classe utilisant des serveurs Dell R730xd E5-2650 v4 coûtant 9 000 euros pour un sou?

Source: https://habr.com/ru/post/fr472378/


All Articles