Tecnologia de memória confiável Dell PRO: detecte e isole erros de memória

Independentemente do fabricante ou tipo de RAM, quase toda a memória do computador contém algum tipo de micro-defeito. Um fabricante de memória pode gastar entre 10 e 15% do custo de um DIMM para testes extensivos de erros, mas a memória ainda pode estar sujeita a falhas e falhas durante a operação do sistema. Uma grande variedade de fatores - do aquecimento excessivo ao "envelhecimento" e a presença de microdefeitos nele - podem levar a erros de memória.



De fato, as taxas de erro de memória dinâmica de acesso aleatório (DRAM) são ordens de magnitude maiores que o relatório de relatórios. Em um estudo recente em larga escala de erros de DRAM de campo com base em dados coletados ao longo de dois anos, cerca de um terço de todas as máquinas e mais de 8% dos DIMMs registraram pelo menos um erro corrigível por ano ( erros de DRAM em estado selvagem: estudo de campo em escala ). Em algumas plataformas, em quase 50% dos sistemas, ocorreram erros corrigíveis (relatório IBID) e, em média, apenas 1,3% dos sistemas estavam sujeitos a erros irreparáveis ​​e, para algumas plataformas, esse número era de 2-4%.

Nos PCs padrão, os erros de memória raramente afetam adversamente o desempenho do software aplicativo padrão. No entanto, em sistemas high-end com cálculos intensivos no mundo das finanças, pesquisa no campo de petróleo e gás, nas tarefas de imagens médicas, produção de mídia (renderização e edição), etc. a integridade dos dados é um componente essencial da arquitetura geral do sistema. Nesses sistemas de alto desempenho, a substituição da memória é um dos primeiros locais para reparo devido a componentes com falha e os erros de memória são um dos problemas mais comuns de hardware que podem levar a falhas no sistema (relatório IBID).



Portanto, a capacidade de detectar, relatar e impedir erros de DIMM em estações de trabalho de alto desempenho está se tornando uma necessidade.

Dada a alta demanda por desempenho extremo de RAM, a Dell patenteou uma tecnologia exclusiva e inovadora usada nas estações de trabalho Dell Precision que ajuda a marcar e desativar a memória inutilizável. Esse recurso exclusivo da Dell ajuda a reduzir o tempo de inatividade do sistema, simplificar o suporte de TI e reduzir os custos gerais de manutenção, aumentando a longevidade da memória e aumentando a produtividade do usuário.

Vamos examinar os conceitos básicos do Dell Reliable Memory Technology PRO (RMT PRO), algumas das principais causas de erros de memória e como o RMT PRO ajuda a resolvê-los.

RAM


Juntamente com os novos avanços na tecnologia do processador, maiores velocidades de barramento e melhorias na arquitetura geral, os sistemas de computadores estão se tornando mais complexos e a RAM também precisa acompanhar essas mudanças.



Essencialmente (muito simplificado), os chips DRAM são uma matriz de elementos com estados liga / desliga que mantêm esse estado (1 ou 0) quando há energia. Quando a energia é desligada, eles retornam ao estado zero. Vários chips são montados juntos em um subsistema de memória e colocados em uma placa de circuito impresso - um DIMM (módulo de memória em linha duplo).

A maioria das estações de trabalho, como a Dell Precision, usa o tipo DIMM conhecido como DDR4 SDRAM, um dispositivo de armazenamento dinâmico síncrono de acesso aleatório. Basicamente, comparado com versões anteriores de tipos de memória (por exemplo, DDR3), o DDR4 é mais rápido, possui maior largura de banda e densidade de memória e requer menos fonte de alimentação.

Erros de memória


Os erros de memória podem ser causados ​​por um grande número de fatores, como resultado dos quais um bit DRAM muda automaticamente para o estado oposto (por exemplo, de 1 a 0, quando durante esse ciclo a memória deve permanecer em 1). Os erros podem ser afetados por fatores como superaquecimento, idade da memória, defeitos etc. Como os estudos mostraram, nos primeiros 10 meses de operação do DIMM, o nível de erros aumenta acentuadamente.

Esses tipos de erros são chamados de erros recuperáveis: danificam os bits aleatoriamente, mas não deixam danos físicos e podem ser corrigidos atualizando o estado da memória.

No entanto, em muitos casos, erros incorrigíveis ocorrem. Este é um erro de bit repetido devido a um defeito físico ou outra anomalia do DIMM, ou quando dois erros ocorrem simultaneamente no mesmo bloco de memória. Um erro de memória irrecuperável pode levar a uma falha do sistema (é necessária uma reinicialização) ou a um aplicativo (código de erro de parada no nível do sistema, despejo do kernel ou "tela azul da morte" - BSoD). Erros corrigíveis com frequência alertam para erros fatais iminentes. Nos estudos, cerca de 65-80% dos erros incorrigíveis no mesmo mês foram precedidos por um erro corrigível.

Tratamento de erros


Atualmente, muitos PCs de classe de estação de trabalho incluem algoritmos de paridade de memória que, simplesmente, garantem que toda vez que um byte de dados é lido, os dados enviados correspondem aos dados recebidos.



Sistemas mais complexos usam outros métodos de correção e detecção de erros. A opção mais comum é a memória de código de correção de erros (ECC). É usado em servidores e estações de trabalho, como nas estações de trabalho Dell Precision. Essencialmente, a memória ECC inclui bits extras e um controlador de memória embutido que verifica a paridade da memória e, no caso de um erro de um bit, a lógica da memória ECC pode corrigir o erro e gerar os dados corrigidos para que o sistema continue funcionando.

O ECC lida com a correção de erros de memória isolados e garante uma operação estável do sistema. No entanto, a memória ECC não fornece uma solução para vários erros em um único bloco de memória. Nesses casos, ocorrerá corrupção de dados. Nessa situação, o Dell Reliable Memory Technology PRO pode ajudar.

Benefícios da tecnologia RMT PRO


Se a placa do disco rígido estiver fisicamente danificada, o setor defeituoso será marcado como inutilizável pelo sistema do PC. No entanto, na maioria dos computadores, incluindo estações de trabalho com memória ECC, um erro fatal ou vários erros corrigíveis no mesmo bloco de memória no DIMM podem causar uma falha no sistema. O usuário, em regra, é forçado a relatar esse erro ao seu serviço de suporte, que, por sua vez, deve executar um determinado programa de diagnóstico para detectar o erro. Geralmente, uma única falha pode exigir a substituição de todo o DIMM.

O resultado é aumento do tempo de inatividade, redução da produtividade, perda de tempo da equipe de TI, necessidade de substituir DIMMs e possíveis danos aos principais arquivos de aplicativos.



A tecnologia de memória confiável Dell (RMT PRO) vem em socorro.
De conceito semelhante à tecnologia de correção de erros do disco rígido, o RMT PRO detecta erros fatais e erros corrigíveis de vários bits no DIMM e corrige o problema. Em vez de um tempo de inatividade dispendioso, executando diagnósticos, abrindo o sistema e substituindo um módulo DIMM com falha pela tecnologia RMT PRO na reinicialização:

  • Marca a parte defeituosa de um único DIMM.
  • Informa o defeito e o local do DIMM com falha no BIOS.
  • Exclui essas células defeituosas e um pequeno número de células vizinhas do pool de memória do sistema usada.


Após uma simples reinicialização, o RMT PRO torna a área defeituosa invisível para o sistema operacional. Os aplicativos e funções críticas do sistema "desviam" a área marcada e continuam a trabalhar sem a necessidade de substituir o equipamento. Tudo será como se nunca houvesse memória ruim. Isso garante uma operação ininterrupta, reduz o número de falhas no sistema e erros de aplicativos.

O RMT PRO pode reduzir os custos de hardware - módulos de memória. Como a memória pode deteriorar-se com uso intenso ou calor excessivo (geralmente devido a alta carga), o número de erros físicos pode aumentar. Apesar da "memória ruim", as informações permanecem no DIMM. Além disso, se a substituição de DIMM for necessária, o RMT PRO exibirá no BIOS exatamente quais DIMMs causam erros, acelerando a solução de problemas e a substituição de DIMM, o que ajuda a reduzir o tempo de inatividade e a reduzir o custo geral do serviço. Assim, a tecnologia RMT PRO estende o ciclo de vida da memória e ajuda a economizar dinheiro.



Conclusões


Embora alguns esquemas de detecção de erros, como a memória ECC, possam detectar erros de memória, muitos desses algoritmos lidam apenas com erros corrigíveis. Quando defeitos físicos ou erros fatais ocorrem no DIMM, o Dell RMT PRO fornece um nível adicional de detecção e correção de memória com defeito.

Ao combinar e excluir setores defeituosos, a tecnologia RMT PRO faz com que aplicativos de computação intensivos acessem apenas a memória utilizável. Isso pode levar a uma economia significativa de tempo e dinheiro devido a uma redução no tempo necessário para substituir o equipamento e os módulos DIMM, além de reduzir o tempo de inatividade do equipamento. Quando a integridade dos dados é crítica, o RMT PRO oferece o nível certo de confiança, fornecendo memória disponível para maximizar a produtividade e a confiabilidade da estação de trabalho.

Source: https://habr.com/ru/post/pt408341/


All Articles