O processo de pensamento de qualquer pessoa é difícil de matematizar. Qualquer tarefa comercial gera um conjunto de documentos formais e informais, cujas informações são refletidas no repositório corporativo. Cada tarefa que gera qualquer processo de informação cria em torno de si um conjunto de documentos e a lógica de seu processamento, pouco formalizada no ambiente de armazenamento corporativo. Deve haver estruturas dentro do armazém de dados para limpar o fluxo de informações. O produto Oracle Enterprise Data Quality, projetado para resolver as tarefas de limpeza de dados "sujos", pode ajudar. Mas isso não se limita ao seu uso.
1. O conceito de um banco de dados aleatório.As primeiras conexões comerciais de uma pessoa são descritas por documentos formais e informais, como declaração, declaração, contrato de trabalho, solicitação de colocação, solicitação de recurso. Esses documentos criam conexões lógicas entre processos de negócios, mas, como regra, são um produto do pensamento dos gerentes de escritório e são pouco formalizados.
A tarefa de qualquer, pelo menos, alguma otimização complicada não é apenas entender as regras formais e informais, mas, muitas vezes, levar conhecimento díspar a uma base de informações comum.
Definição de Um banco de dados aleatório é um conjunto de fatos, documentos, notas manuais, documentos formais que são processados por uma pessoa para um processo de negócios específico, mas não podem ser totalmente processados automaticamente devido à forte influência do fator humano.Um exemplo A secretária recebe formalmente a ligação. O chamador está interessado em um produto ou serviço. O chamador não é conhecido pelo CRM. Pergunta: o que o chamador deve dizer para ser ouvido por um especialista?
Para ser mais preciso: quanto as instruções comerciais da secretária permitem um diálogo formal sobre a empresa se o especialista responsável não estiver pronto para esse tipo de atividade?
Acontece que chegamos novamente à definição de um banco de dados aleatório.
Talvez contenha mais fatos do que a secretária pode saber. Mas a informação recebida nela não pode ser supérflua. Em geral, quando fatos aleatórios de um banco de dados aleatório chegam à entrada de um sistema formalizado, surge uma sobrecarga de informações - e toda sobrecarga de informações pode afetar o desempenho não apenas do secretário, mas de toda a empresa.
Se for usada para fins de processamento, uma máquina que leia os estados dessas informações chega, com base em conclusões lógicas, ao estado oposto ao da sobrecarga de informações humanas. A lógica humana é mais flexível.
2. Aplicação da definição a tarefas reais.Imagine uma loja na qual os preços de mercadorias aleatórias sejam notavelmente altos ou baixos. Ao sair desta loja, na cabeça de um cliente inexperiente com uma lista de compras, estará o preço de 5 a 7 (ou até 3) dos produtos mais populares, cujo preço pode afetar o tamanho da verificação total. Acontece que, se fosse possível conhecer a lista de mercadorias, cujo preço os compradores mais lembram, o restante dos preços poderia variar em uma faixa relativamente ampla.
Alguma vez você já se perguntou por que, antes da Quaresma, a carne a princípio se torna nitidamente mais barata, depois pode subir acentuadamente no preço e depois desaparecer? O preço de um produto, cuja demanda pode cair para zero, é primeiro artificialmente aquecido; depois, passando um certo nível de demanda, ele começa a ser fixado e, depois de um tempo, sobe com força, já que a ganância não permite doar bens ilíquidos a um preço justo.
Uma situação quase semelhante existe no mercado de dados. A informação mais útil é quase sempre oculta por hipóteses secundárias sobre sua aplicabilidade e extração.
Basta fornecer informações interessantes para 5000-7000 pessoas em qualquer recurso relativamente desprotegido; certamente existem sites de copiar e colar.
Ou o famoso jogo com códigos de telefone "Quem me ligou?". Cerca de mil sites em Runet consistem apenas nos números de telefone de várias operadoras, a fim de serem um pouco mais altos nos resultados da pesquisa, tentando vender de alguma forma o nome de domínio e a publicidade mais cara.
3. O preço da emissão ao trabalhar com dados "sujos".Segundo a pesquisa do autor do artigo, até 10% dos recursos trabalhistas de cada projeto são desviados para a elaboração de certos procedimentos de limpeza de dados. Se você não insistir no tipo e comprimento completamente banais, ou seja, identificadores exclusivos, regras de integridade de banco de dados e regras de integridade de negócios, escalas quantitativas e qualitativas, sistemas de unidades de intensidade de trabalho e quaisquer outros estados, influências, transições cuja preparação requer como estatística usual análise lógica e séria de negócios. A formalização de requisitos vem à necessidade de formalizar o relacionamento de dimensão de fato, tanto para a criação de repositórios quanto para a solução de problemas no front-end.
Concordo, se os processos de ETL ocupam 70% do tempo de trabalho de qualquer armazenamento, poupar 5-7% dos recursos na limpeza correta dos dados em um armazenamento condicional de 200.000 clientes já é um bom bônus?
Abordaremos um pouco as questões de dados "sujos" em sistemas prontos. Digamos que você envie um parabéns por um feriado nacional a 10.000 clientes pelo correio. Quantas pessoas jogam sua carta com o melhor cartão postal na caixa postal, se você cometer um erro no nome, sobrenome ou preencher o formulário incorretamente no formulário? O preço de seus esforços pode reduzir o humor de qualquer usuário a zero!
4. Oracle Enterprise Data Quality - escudo e espada do armazenamento corporativo.As capturas de tela que fornecemos descrevem os recursos do Oracle Enterprise Data Quality.
Portanto, deixe alguém derramar água em seu banco de dados ou documento de texto.

Aqui está uma lista de processadores padrão (unidades lógicas que permitem usar
para os dados de uma ou outra hipótese ou procure o necessário):

Ação aleatória do criador de perfil de banco de dados:

Auditoria elementar da solvência financeira:

Trabalhe com um código postal:

Limpando o endereço para correspondência:

Limpando dados do usuário:

Designação de um registro para um ou outro intervalo de confiança:

Determinando o sexo do usuário a partir de dados indiretos:

Definição de cidade e país, estado:

A pesquisa de chave mais simples em um banco de dados aleatório:

Desduplicação de dados do usuário:
5. Observações engraçadas feitas sobre os resultados do trabalho no Oracle EDQ.Um dos princípios de comparar as contribuições de escritores e poetas à literatura é comparar seus dicionários poéticos e literários. Fornecemos vários dicionários compilados em tempo livre para testes de soluções prontas para Oracle EDQ, Python, Java. Ficaremos gratos se os filólogos nos comentários postarem seus resultados.
Número p.p.
| A palavra
| Frequência de ocorrência
|
Leão Tolstoi, Guerra e Paz. Fragmento da tabela de frequências dicionário de direitos autorais.
| Eu Brodsky, Urania.
| Eu Brodsky Complete works, um fragmento do dicionário de frequências o autor.
| N. Nekrasov, um fragmento do dicionário de frequências para a coleção completa ensaios.
|
1
| e
| 10351
| em 1037
| em 5745
| e 3420
|
3)
| em
| 5185
| e 647
| e 4500
| em 2108
|
4)
| não
| 4292
| não 391
| não 3022
| não 1726
|
5)
| o que
| 3845
| em 341
| em 2239
| eu 1040
|
6
| ele é
| 3730
| como 329
| como 1758
| com 883
|
7)
| em
| 3305
| com 237
| com 1674
| em 854
|
8)
| com
| 3030
| o que 168
| o que 1531
| como 763
|
9
| como
| 2097
| para 148
| E 1200
| o que 693
|
10)
| eu
| 1896
| de 147
| eu 1040
| ele é 644
|
11)
| dele
| 1882
| de 104
| para 922
| você 475
|
12)
| para
| 1771
| eu 90
| de 810
| mas 472
|
13)
| então
| 1600
| onde 88
| tudo 748
| mas 449
|
14)
| ela é
| 1564
| que 88
| por 744
| tão 383
|
15
| mas
| 1234
| para 76
| você 721
| para 367
|
16
| é
| 1208
| por 74
| Em 713
| tudo 344
|
17
| disse
| 1135
| Mas 72
| para 687
| para 313
|
18
| era
| 1125
| nem 70
| de 635
| para mim 309
|
19
| tão
| 1032
| seria 69
| mas 617
| sim 294
|
20
| o príncipe
| 1012
| então 67
| ele é 592
| dele 275
|
21
| para
| 985
| você 67
| Mas 584
| então 232
|
22)
| mas
| 962
| sobre 66.
| então 540
| era 229
|
23
| para ele
| 918
| mas 63.
| sobre 538
| por 224
|
24)
| tudo
| 908
| está ai 61
| é 524
| não 223
|
25)
| por
| 895
| Eu sou 61
| Eu sou 489
| nem 222
|
26)
| ela
| 885
|
| mas 463
| sobre 213
|
27
| de
| 845
|
| onde 449
| o deles 212
|
28)
|
|
|
| que 443
| de 209
|
29
|
|
|
| Um 428
| de 207
|
30)
|
|
|
| o mesmo 422
| nós somos 206
|
Conclusão: as estatísticas da língua russa nos últimos cem anos, em termos da frequência de palavras individuais, não mudaram muito, entre os poetas - as palavras são mais "melodiosas". A propósito, as estatísticas de Daria Dontsova coincidem em grande parte com Leo Tolstoi no campo do dicionário de frequências dos trabalhos completos.
6. Vários cálculos formais como conclusão.Cerca de 60 mil Ivanov Ivanov Ivanovich vivem em nosso país. Supondo que, em algum lugar, hipoteticamente, 100 tabelas sejam armazenadas no banco de dados médio, 10 campos-chave em cada tabela e cada chave possua 60 mil valores, obtemos que o número total de estados de chave exclusivos no banco de dados é de cerca de 60 milhões. Mesmo que duas chaves sejam misturadas em uma tabela, elas podem gerar até 20 estados exclusivos em uma tabela. No total, até milhares podem chegar à base de estados únicos. Concorda que gastar 10% do tempo de desenvolvimento e 5-7% do tempo de execução do ETL para capturar essas insignificâncias é um luxo inadmissível?
UPD1 Se você está cansado de arrastar o sistema de controle para cada diretório mais ou menos importante em seu trabalho, os sistemas MDM (Master Data Management) virão em seu auxílio. Obviamente, entregamos esses sistemas ao mercado, incluindo uma versão em software livre.
UPD2 Muitas vezes, nas conferências, a pergunta é feita: “Como criar um sistema de gerenciamento de qualidade de dados mais barato”. Peço que você considere este artigo uma pequena introdução a esse problema, com alguma simplificação da funcionalidade do EDQ. Sim, e ainda assim, você pode pegar um monte de ODI + EDQ e fazê-lo muito bem, mas esse é o assunto de mais narrações.