Bases de datos aleatorias. Oracle Enterprise Data Quality: escudo y espada para almacenamiento empresarial

El proceso de pensamiento de cualquier persona es dif铆cil de matematizar. Cualquier tarea comercial genera un conjunto de documentos formales e informales, cuya informaci贸n se refleja en el repositorio corporativo. Cada tarea que genera cualquier proceso de informaci贸n crea a su alrededor un conjunto de documentos y la l贸gica de su procesamiento, que est谩 poco formalizada en el entorno de almacenamiento corporativo. Debe haber estructuras dentro del almac茅n de datos para borrar el flujo de informaci贸n. El producto Oracle Enterprise Data Quality, que est谩 dise帽ado para resolver las tareas de limpieza de datos "sucios", puede ayudar. Pero esto no se limita a su uso.

1. El concepto de una base de datos aleatoria.

Las primeras conexiones comerciales de una persona se describen mediante documentos formales e informales, como una declaraci贸n, declaraci贸n, contrato de trabajo, solicitud de colocaci贸n, solicitud de un recurso. Estos documentos crean conexiones l贸gicas entre los procesos comerciales, pero, como regla, son producto del pensamiento de los gerentes de oficina y est谩n poco formalizados.

La tarea de cualquier optimizaci贸n al menos complicada es no solo comprender las reglas formales e informales, sino, a menudo, aportar conocimientos dispares a una base de informaci贸n com煤n.

Definici贸n Una base de datos aleatoria es un conjunto de hechos, documentos, notas manuales, documentos formales que son procesados 鈥嬧媝or una persona para un proceso comercial espec铆fico, pero que no pueden procesarse de manera totalmente autom谩tica debido a la fuerte influencia del factor humano.

Un ejemplo El secretario recibe formalmente la llamada. La persona que llama est谩 interesada en un producto o servicio. La persona que llama no es conocida por CRM. Pregunta: 驴qu茅 debe decir la persona que llama para que un especialista la escuche?

Para ser m谩s precisos: 驴en qu茅 medida las instrucciones comerciales de la secretaria permiten un di谩logo formal sobre el negocio si el especialista responsable no est谩 listo para este tipo de actividad?

Resulta que nuevamente llegamos a la definici贸n de una base de datos aleatoria.

Tal vez contiene m谩s hechos de los que la secretaria puede saber. Pero la informaci贸n recibida en ella no puede ser superflua. En general, cuando los hechos aleatorios de una base de datos aleatoria llegan a la entrada de un sistema formalizado, surge una sobrecarga de informaci贸n, y toda sobrecarga de informaci贸n puede afectar el desempe帽o no solo del secretario, sino de toda la empresa.

Si se utiliza con fines de procesamiento, una m谩quina que lee los estados de esta informaci贸n se basa en conclusiones l贸gicas sobre el estado opuesto a la persona: sobrecarga de informaci贸n. La l贸gica humana es m谩s flexible.

2. Aplicaci贸n de la definici贸n a tareas reales.

Imagine una tienda en la que las etiquetas de precio para productos aleatorios son notablemente altas o bajas. Cuando salga de esta tienda, en la cabeza de un cliente inexperto con una lista de compras estar谩 el precio de 5-7 (o incluso 3) de los productos m谩s populares, cuyo precio puede afectar el tama帽o del cheque total. Resulta que si fuera posible conocer la lista de productos, cuyo precio los compradores recuerdan con mayor frecuencia, el resto de los precios podr铆a variar en un rango relativamente amplio.

驴Alguna vez te has preguntado por qu茅, antes de la Cuaresma, la carne al principio se vuelve mucho m谩s barata, y luego puede aumentar considerablemente su precio y luego desaparecer? El precio de un producto, cuya demanda puede caer a cero, primero se calienta artificialmente, luego, pasando un cierto nivel de demanda, comienza a fijarse y, despu茅s de un tiempo, aumenta con fuerza, ya que la codicia no permite regalar productos no l铆quidos a un precio justo.

Una situaci贸n casi similar existe en el mercado de datos. La informaci贸n m谩s 煤til casi siempre est谩 oculta por hip贸tesis secundarias sobre su aplicabilidad y capacidad de extracci贸n.
Es suficiente presentar cualquier informaci贸n que sea interesante para 5000-7000 personas en cualquier recurso relativamente desprotegido, seguramente hay sitios de copiar y pegar.

O el famoso juego con c贸digos telef贸nicos "驴Qui茅n me llam贸?". Alrededor de mil sitios en Runet consisten solo en los n煤meros de tel茅fono de varios operadores para ser un poco m谩s altos en los resultados de b煤squeda, tratando de vender de alguna manera el nombre de dominio y anunciando m谩s caro.

3. El precio del problema cuando se trabaja con datos "sucios".

Seg煤n la investigaci贸n del autor del art铆culo, hasta el 10% de los recursos laborales de cada proyecto se desv铆an a la escritura de ciertos procedimientos de limpieza de datos. Si no se detiene en un tipo y una longitud completamente banales, es decir, identificadores 煤nicos, reglas de integridad de la base de datos y reglas de integridad comercial, escalas de unidades cuantitativas y cualitativas, sistemas de unidades laborales y cualquier otro estado, influencias, transiciones, cuya preparaci贸n requiere como estad铆stica habitual An谩lisis comercial l贸gico y serio. La formalizaci贸n de los requisitos surge de la necesidad de formalizar la relaci贸n de dimensi贸n de hechos, tanto para construir repositorios como para resolver problemas en el front-end.

De acuerdo, si los procesos de ETL ocupan el 70% del tiempo de trabajo de cualquier almacenamiento, 驴ahorrar un 5-7% de los recursos en la limpieza correcta de los datos en un almacenamiento condicional de 200,000 clientes ya es una buena ventaja?

Cubriremos un poco los problemas de datos "sucios" en sistemas listos para usar. Supongamos que env铆a una felicitaci贸n por un feriado nacional a 10,000 clientes por correo. 驴Cu谩ntas personas tirar谩n su carta con la mejor postal en el buz贸n, si comete un error en el nombre, apellido o rellena el formulario incorrectamente? 隆El precio de sus esfuerzos puede reducir el estado de 谩nimo de cualquier usuario a cero!

4. Oracle Enterprise Data Quality: escudo y espada del almacenamiento corporativo.

Las capturas de pantalla que proporcionamos describen las capacidades de Oracle Enterprise Data Quality.

Entonces, deje que alguien derrame agua sobre su base de datos o documento de texto.


Aqu铆 hay una lista de procesadores est谩ndar (unidades l贸gicas que le permiten usar
a los datos de una u otra hip贸tesis, o busque la requerida):


Acci贸n de perfil de base de datos aleatoria:


Auditor铆a elemental de solvencia financiera:


Trabajar con un c贸digo postal:


Limpieza de la direcci贸n postal:


Borrar datos del usuario:


Asignaci贸n de un registro a uno u otro intervalo de confianza:


Determinaci贸n del g茅nero del usuario a partir de datos indirectos:


Definici贸n de ciudad y pa铆s, estado:


La b煤squeda de claves m谩s simple en una base de datos aleatoria:


Desduplicaci贸n de los datos del usuario:


5. Observaciones divertidas hechas sobre los resultados del trabajo en Oracle EDQ.

Uno de los principios para comparar las contribuciones de escritores y poetas a la literatura es comparar sus diccionarios po茅ticos y literarios. Brindamos una serie de diccionarios compilados en tiempo libre para pruebas de soluciones listas para Oracle EDQ, Python, Java. Estaremos agradecidos si los fil贸logos en los comentarios publican sus resultados.

N煤mero p.p.


La palabra


Frecuencia de ocurrencia


Le贸n
Tolstoi, guerra y paz. Fragmento de la tabla de frecuencias.
Diccionario de derechos de autor.



Yo
Brodsky, Urania.



Yo
Brodsky Complete works, un fragmento del diccionario de frecuencias
el autor



N.
Nekrasov, un fragmento del diccionario de frecuencias para la colecci贸n completa
ensayos



1)


y


10351


en
1037


en
5745


y
3420


3)


en


5185


y
647


y
4500


en
2108


4)


no


4292


no
391


no
3022


no
1726


5)


que


3845


en
341


en
2239


yo
1040


6)


el es


3730


como
329


como
1758


con
883


7)


en


3305


con
237


con
1674


en
854


8)


con


3030


que
168


que
1531


como
763


9)


como


2097


a
148


Y
1200


que
693


10)


yo


1896


de
147


yo
1040


el es
644


11)


su


1882


de
104


a
922


tu
475


12)


a


1771


yo
90


de
810


pero
472


13)


entonces


1600


donde
88


todos
748


pero
449


14)


ella es


1564


que
88


por
744


entonces
383


15)


pero


1234


para
76


tu
721


a
367


16)


es


1208


por
74


En
713


todos
344


17)


dijo


1135


Pero
72


para
687


para
313


18)


fue


1125


ninguno
70


de
635


para mi
309


19)


entonces


1032


lo har铆a
69


pero
617


si
294


20)


el principe


1012


entonces
67


el es
592


su
275


21)


para


985


tu
67


Pero
584


entonces
232


22)


pero


962


acerca de
66


entonces
540


fue
229


23)


a el


918


pero
63


acerca de
538


por
224


24)


todos


908


esta ahi
61


es
524


no
223


25)


por


895


Yo soy
61


Yo soy
489


ninguno
222


26)


ella


885



pero
463


acerca de
213


27)


de


845



donde
449


su
212


28)





que
443


de
209


29)





Un
428


de
207


30)





lo mismo
422


nosotros somos
206




Conclusi贸n: las estad铆sticas de la lengua rusa en los 煤ltimos cien a帽os en t茅rminos de la frecuencia de las palabras individuales no ha cambiado mucho entre los poetas: las palabras son m谩s "melodiosas". Por cierto, las estad铆sticas de Daria Dontsova coinciden en muchos aspectos con Leo Tolstoi en el campo del diccionario de frecuencias de las obras completas.

6. Varios c谩lculos formales como conclusi贸n.

Alrededor de 60 mil Ivanov Ivanov Ivanovich viven en nuestro pa铆s. Suponiendo que hipot茅ticamente, en alg煤n lugar, se almacenan 100 tablas en la base de datos promedio, 10 campos clave en cada tabla y cada clave puede tomar 60 mil valores, obtenemos que el n煤mero total de estados clave 煤nicos dentro de la base de datos es de aproximadamente 60 millones. Incluso si dos claves se mezclan en una tabla, pueden generar hasta 20 estados 煤nicos en una tabla. En total, hasta varios miles pueden encontrarse con la base de estados 煤nicos. 驴Est谩 de acuerdo en que pasar el 10% del tiempo de desarrollo y el 5-7% del tiempo de ejecuci贸n de ETL para atrapar esas peque帽eces es un lujo inadmisible?

UPD1 Si est谩 cansado de arrastrar el sistema de control para cada directorio m谩s o menos importante en su trabajo, los sistemas MDM (Master Data Management) lo ayudar谩n. Por supuesto, entregamos dichos sistemas al mercado, incluida una versi贸n en software libre.

UPD2 Muy a menudo en las conferencias se hace la pregunta: "C贸mo crear un sistema de gesti贸n de calidad de datos m谩s barato". Le pido que considere este art铆culo como una peque帽a introducci贸n a este problema, con alguna simplificaci贸n de la funcionalidad EDQ. S铆, y sin embargo, puede tomar un mont贸n de ODI + EDQ y hacerlo muy bien, pero este es el tema de una mayor narraci贸n.

Source: https://habr.com/ru/post/444700/


All Articles