Qualidade dos dados em armazenamento

A qualidade dos dados no repositório é um pré-requisito importante para obter informações valiosas. A má qualidade leva a uma reação em cadeia negativa a longo prazo.
Primeiro, a confiança nas informações fornecidas é perdida. As pessoas estão começando a usar menos os aplicativos de Business Intelligence, o potencial dos aplicativos permanece não reivindicado.
Como resultado, novos investimentos no projeto analítico são questionados.

Responsabilidade pela qualidade dos dados


O aspecto associado à melhoria da qualidade dos dados é importante nos projetos de BI. No entanto, não é privilégio apenas de especialistas técnicos.
A qualidade dos dados também é influenciada por aspectos como

Cultura corporativa

  • Os próprios trabalhadores estão interessados ​​em produzir boa qualidade?
  • Se não, por que? Pode haver um conflito de interesses.
  • Talvez haja regras corporativas que definam os responsáveis ​​pela qualidade?

Os processos

  • Quais dados são criados no final dessas cadeias?
  • Talvez os sistemas operacionais estejam configurados para que você precise "sair" para refletir essa ou aquela situação na realidade.
  • Os sistemas operacionais executam eles próprios a validação e verificação de dados?

Todos na organização são responsáveis ​​pela qualidade dos dados nos sistemas de relatórios.

Definição e significado


A qualidade é uma satisfação confirmada das expectativas do cliente.

Mas a qualidade dos dados não contém uma definição. Sempre reflete o contexto de uso. O armazém de dados e o sistema de BI executam finalidades diferentes do sistema operacional, de onde os dados são obtidos.

Por exemplo, em um sistema operacional, um atributo do cliente pode não ser um campo obrigatório. No repositório, esse atributo pode ser usado como uma dimensão e seu preenchimento é obrigatório. O que, por sua vez, introduz a necessidade de preencher com valores padrão.

Os requisitos de data warehouse estão mudando constantemente e geralmente são mais altos que os sistemas operacionais. Mas pode ser o contrário, quando não é necessário armazenar informações detalhadas do sistema operacional no armazenamento.

Para tornar a qualidade dos dados mensurável, seus padrões devem ser descritos. Pessoas que usam informações e números para o seu trabalho devem estar envolvidas no processo de descrição. O resultado desse envolvimento pode ser uma regra, após a qual, de relance, você pode dizer se há um erro ou não. Esta regra precisa ser emitida na forma de um script / código para verificação subseqüente.

Melhoria da qualidade dos dados


É impossível limpar e corrigir todos os erros hipotéticos no processo de carregamento de dados no repositório. A boa qualidade dos dados só pode ser alcançada através do trabalho próximo de todos os participantes. As pessoas que inserem dados nos sistemas operacionais devem descobrir quais ações levam a erros.

A qualidade dos dados é um processo. Infelizmente, em muitas organizações não há estratégia para melhoria contínua. Muitos se limitam apenas a salvar dados e não usam todo o potencial dos sistemas analíticos. Como regra, no desenvolvimento de data warehouses, 70 a 80% do orçamento são gastos na integração de dados. O processo de controle e melhoria permanece inacabado, se é que existe.

As ferramentas


O uso de ferramentas de software pode ajudar no processo de automatização da melhoria e monitoramento da qualidade dos dados. Por exemplo, eles podem automatizar completamente a verificação técnica das estruturas de armazenamento: formato do campo, valores padrão, conformidade com os requisitos dos nomes dos campos da tabela.

Pode ser mais difícil verificar o conteúdo. À medida que os requisitos de armazenamento mudam, a interpretação dos dados pode mudar. A ferramenta em si pode se transformar em um grande projeto que requer suporte.

Dica


Os bancos de dados relacionais, nos quais os repositórios geralmente são projetados, têm uma grande oportunidade de criar visualizações (visualizações). Eles podem ser usados ​​para verificar rapidamente os dados, se você conhece os recursos do conteúdo. Cada caso de encontrar um erro ou problema nos dados pode ser registrado na forma de uma consulta no banco de dados.

Assim, uma base de conhecimento de conteúdo será formada. Obviamente, esses pedidos devem ser rápidos. Como regra, as exibições de manutenção levam menos tempo humano do que as ferramentas organizadas nas tabelas. A visualização está sempre pronta para exibir o resultado da verificação.
No caso de relatórios importantes, a exibição pode conter uma coluna com o destinatário. Faz sentido usar as mesmas ferramentas de BI para relatar o status da qualidade dos dados no repositório.

Exemplo


A solicitação é gravada para o banco de dados Oracle. Neste exemplo, os testes retornam um valor numérico que pode ser interpretado conforme necessário. Os valores T_MIN e T_MAX podem ser usados ​​para ajustar o grau de alarme. O campo RELATÓRIO já foi usado como uma mensagem em um produto comercial de ETL que não sabia como enviar emails adequadamente, portanto, o rpad é uma "muleta".

No caso de uma tabela grande, você pode adicionar, por exemplo, AND ROWNUM <= 10, ou seja, se houver 10 erros, isso será suficiente para alarme.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS SELECT CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX THEN 'OK' ELSE 'ERROR' END AS RESULT, DESCRIPTION, TABLE_NAME, OUTPUT, T_MIN, T_MAX, rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT FROM (-- Test itself SELECT 'DIM_PRODUCT' AS TABLE_NAME, 'Count of blanks' AS DESCRIPTION, COUNT(*) AS OUTPUT, 0 AS T_MIN, 10 AS T_MAX FROM DIM_PRODUCT WHERE DIM_PRODUCT_ID != -1 -- not default value AND ATTRIBUTE IS NULL ); -- count blanks 

A publicação usou materiais de livros
Ronald Bachmann, Dr. Guido kemper
Raus aus BI-Falle
Como Business Intelligence em Erfolg wird

Source: https://habr.com/ru/post/pt459682/


All Articles