Bancos de dados aleatórios. Oracle Enterprise Data Quality - Shield e Sword for Enterprise Storage

O processo de pensamento de qualquer pessoa é difícil de matematizar. Qualquer tarefa comercial gera um conjunto de documentos formais e informais, cujas informações são refletidas no repositório corporativo. Cada tarefa que gera qualquer processo de informação cria em torno de si um conjunto de documentos e a lógica de seu processamento, pouco formalizada no ambiente de armazenamento corporativo. Deve haver estruturas dentro do armazém de dados para limpar o fluxo de informações. O produto Oracle Enterprise Data Quality, projetado para resolver as tarefas de limpeza de dados "sujos", pode ajudar. Mas isso não se limita ao seu uso.

1. O conceito de um banco de dados aleatório.

As primeiras conexões comerciais de uma pessoa são descritas por documentos formais e informais, como declaração, declaração, contrato de trabalho, solicitação de colocação, solicitação de recurso. Esses documentos criam conexões lógicas entre processos de negócios, mas, como regra, são um produto do pensamento dos gerentes de escritório e são pouco formalizados.

A tarefa de qualquer, pelo menos, alguma otimização complicada não é apenas entender as regras formais e informais, mas, muitas vezes, levar conhecimento díspar a uma base de informações comum.

Definição de Um banco de dados aleatório é um conjunto de fatos, documentos, notas manuais, documentos formais que são processados ​​por uma pessoa para um processo de negócios específico, mas não podem ser totalmente processados ​​automaticamente devido à forte influência do fator humano.

Um exemplo A secretária recebe formalmente a ligação. O chamador está interessado em um produto ou serviço. O chamador não é conhecido pelo CRM. Pergunta: o que o chamador deve dizer para ser ouvido por um especialista?

Para ser mais preciso: quanto as instruções comerciais da secretária permitem um diálogo formal sobre a empresa se o especialista responsável não estiver pronto para esse tipo de atividade?

Acontece que chegamos novamente à definição de um banco de dados aleatório.

Talvez contenha mais fatos do que a secretária pode saber. Mas a informação recebida nela não pode ser supérflua. Em geral, quando fatos aleatórios de um banco de dados aleatório chegam à entrada de um sistema formalizado, surge uma sobrecarga de informações - e toda sobrecarga de informações pode afetar o desempenho não apenas do secretário, mas de toda a empresa.

Se for usada para fins de processamento, uma máquina que leia os estados dessas informações chega, com base em conclusões lógicas, ao estado oposto ao da sobrecarga de informações humanas. A lógica humana é mais flexível.

2. Aplicação da definição a tarefas reais.

Imagine uma loja na qual os preços de mercadorias aleatórias sejam notavelmente altos ou baixos. Ao sair desta loja, na cabeça de um cliente inexperiente com uma lista de compras, estará o preço de 5 a 7 (ou até 3) dos produtos mais populares, cujo preço pode afetar o tamanho da verificação total. Acontece que, se fosse possível conhecer a lista de mercadorias, cujo preço os compradores mais lembram, o restante dos preços poderia variar em uma faixa relativamente ampla.

Alguma vez você já se perguntou por que, antes da Quaresma, a carne a princípio se torna nitidamente mais barata, depois pode subir acentuadamente no preço e depois desaparecer? O preço de um produto, cuja demanda pode cair para zero, é primeiro artificialmente aquecido; depois, passando um certo nível de demanda, ele começa a ser fixado e, depois de um tempo, sobe com força, já que a ganância não permite doar bens ilíquidos a um preço justo.

Uma situação quase semelhante existe no mercado de dados. A informação mais útil é quase sempre oculta por hipóteses secundárias sobre sua aplicabilidade e extração.
Basta fornecer informações interessantes para 5000-7000 pessoas em qualquer recurso relativamente desprotegido; certamente existem sites de copiar e colar.

Ou o famoso jogo com códigos de telefone "Quem me ligou?". Cerca de mil sites em Runet consistem apenas nos números de telefone de várias operadoras, a fim de serem um pouco mais altos nos resultados da pesquisa, tentando vender de alguma forma o nome de domínio e a publicidade mais cara.

3. O preço da emissão ao trabalhar com dados "sujos".

Segundo a pesquisa do autor do artigo, até 10% dos recursos trabalhistas de cada projeto são desviados para a elaboração de certos procedimentos de limpeza de dados. Se você não insistir no tipo e comprimento completamente banais, ou seja, identificadores exclusivos, regras de integridade de banco de dados e regras de integridade de negócios, escalas quantitativas e qualitativas, sistemas de unidades de intensidade de trabalho e quaisquer outros estados, influências, transições cuja preparação requer como estatística usual análise lógica e séria de negócios. A formalização de requisitos vem à necessidade de formalizar o relacionamento de dimensão de fato, tanto para a criação de repositórios quanto para a solução de problemas no front-end.

Concordo, se os processos de ETL ocupam 70% do tempo de trabalho de qualquer armazenamento, poupar 5-7% dos recursos na limpeza correta dos dados em um armazenamento condicional de 200.000 clientes já é um bom bônus?

Abordaremos um pouco as questões de dados "sujos" em sistemas prontos. Digamos que você envie um parabéns por um feriado nacional a 10.000 clientes pelo correio. Quantas pessoas jogam sua carta com o melhor cartão postal na caixa postal, se você cometer um erro no nome, sobrenome ou preencher o formulário incorretamente no formulário? O preço de seus esforços pode reduzir o humor de qualquer usuário a zero!

4. Oracle Enterprise Data Quality - escudo e espada do armazenamento corporativo.

As capturas de tela que fornecemos descrevem os recursos do Oracle Enterprise Data Quality.

Portanto, deixe alguém derramar água em seu banco de dados ou documento de texto.


Aqui está uma lista de processadores padrão (unidades lógicas que permitem usar
para os dados de uma ou outra hipótese ou procure o necessário):


Ação aleatória do criador de perfil de banco de dados:


Auditoria elementar da solvência financeira:


Trabalhe com um código postal:


Limpando o endereço para correspondência:


Limpando dados do usuário:


Designação de um registro para um ou outro intervalo de confiança:


Determinando o sexo do usuário a partir de dados indiretos:


Definição de cidade e país, estado:


A pesquisa de chave mais simples em um banco de dados aleatório:


Desduplicação de dados do usuário:


5. Observações engraçadas feitas sobre os resultados do trabalho no Oracle EDQ.

Um dos princípios de comparar as contribuições de escritores e poetas à literatura é comparar seus dicionários poéticos e literários. Fornecemos vários dicionários compilados em tempo livre para testes de soluções prontas para Oracle EDQ, Python, Java. Ficaremos gratos se os filólogos nos comentários postarem seus resultados.

Número p.p.


A palavra


Frequência de ocorrência


Leão
Tolstoi, Guerra e Paz. Fragmento da tabela de frequências
dicionário de direitos autorais.



Eu
Brodsky, Urania.



Eu
Brodsky Complete works, um fragmento do dicionário de frequências
o autor.



N.
Nekrasov, um fragmento do dicionário de frequências para a coleção completa
ensaios.



1


e


10351


em
1037


em
5745


e
3420


3)


em


5185


e
647


e
4500


em
2108


4)


não


4292


não
391


não
3022


não
1726


5)


o que


3845


em
341


em
2239


eu
1040


6


ele é


3730


como
329


como
1758


com
883


7)


em


3305


com
237


com
1674


em
854


8)


com


3030


o que
168


o que
1531


como
763


9


como


2097


para
148


E
1200


o que
693


10)


eu


1896


de
147


eu
1040


ele é
644


11)


dele


1882


de
104


para
922


você
475


12)


para


1771


eu
90


de
810


mas
472


13)


então


1600


onde
88


tudo
748


mas
449


14)


ela é


1564


que
88


por
744


tão
383


15


mas


1234


para
76


você
721


para
367


16


é


1208


por
74


Em
713


tudo
344


17


disse


1135


Mas
72


para
687


para
313


18


era


1125


nem
70


de
635


para mim
309


19


tão


1032


seria
69


mas
617


sim
294


20


o príncipe


1012


então
67


ele é
592


dele
275


21


para


985


você
67


Mas
584


então
232


22)


mas


962


sobre
66.


então
540


era
229


23


para ele


918


mas
63.


sobre
538


por
224


24)


tudo


908


está ai
61


é
524


não
223


25)


por


895


Eu sou
61


Eu sou
489


nem
222


26)


ela


885



mas
463


sobre
213


27


de


845



onde
449


o deles
212


28)





que
443


de
209


29





Um
428


de
207


30)





o mesmo
422


nós somos
206




Conclusão: as estatísticas da língua russa nos últimos cem anos, em termos da frequência de palavras individuais, não mudaram muito, entre os poetas - as palavras são mais "melodiosas". A propósito, as estatísticas de Daria Dontsova coincidem em grande parte com Leo Tolstoi no campo do dicionário de frequências dos trabalhos completos.

6. Vários cálculos formais como conclusão.

Cerca de 60 mil Ivanov Ivanov Ivanovich vivem em nosso país. Supondo que, em algum lugar, hipoteticamente, 100 tabelas sejam armazenadas no banco de dados médio, 10 campos-chave em cada tabela e cada chave possua 60 mil valores, obtemos que o número total de estados de chave exclusivos no banco de dados é de cerca de 60 milhões. Mesmo que duas chaves sejam misturadas em uma tabela, elas podem gerar até 20 estados exclusivos em uma tabela. No total, até milhares podem chegar à base de estados únicos. Concorda que gastar 10% do tempo de desenvolvimento e 5-7% do tempo de execução do ETL para capturar essas insignificâncias é um luxo inadmissível?

UPD1 Se você está cansado de arrastar o sistema de controle para cada diretório mais ou menos importante em seu trabalho, os sistemas MDM (Master Data Management) virão em seu auxílio. Obviamente, entregamos esses sistemas ao mercado, incluindo uma versão em software livre.

UPD2 Muitas vezes, nas conferências, a pergunta é feita: “Como criar um sistema de gerenciamento de qualidade de dados mais barato”. Peço que você considere este artigo uma pequena introdução a esse problema, com alguma simplificação da funcionalidade do EDQ. Sim, e ainda assim, você pode pegar um monte de ODI + EDQ e fazê-lo muito bem, mas esse é o assunto de mais narrações.

Source: https://habr.com/ru/post/pt444700/


All Articles