Por qué E en la abreviatura EHD se trata de procesos comerciales

Almacén de datos sin E


Hoy, en cualquier empresa relacionada con empresas grandes y medianas, la disponibilidad de un almacén de datos es un estándar corporativo de facto. No importa en qué industria opera la empresa, sin analizar los datos disponibles sobre clientes, proveedores, finanzas, es imposible mantener una ventaja competitiva. Con el desarrollo de la automatización y la optimización en cada nivel de producción de un producto o servicio, la organización utiliza cada vez más sistemas de TI que crean datos: producción, contabilidad, planificación, gestión de personal y otros.

Cómo construir el proceso de creación de un almacén de datos de manera más efectiva desde el punto de vista de la optimización global de los recursos empresariales, las necesidades comerciales nuevas y actuales, y por qué es importante mantener los metadatos.

Las tareas para usar datos acumulados se usan con mayor frecuencia para las siguientes clases de tareas:

  • informes regulatorios
  • contabilidad financiera
  • planificación y control
  • presupuesto
  • análisis de base de clientes
  • gestión de riesgos

A menudo, para los propósitos más urgentes, es suficiente usar una fuente, por ejemplo, si estamos hablando de proporcionar al regulador algunos detalles de un determinado sistema, o enviar al cliente el historial completo de sus pedidos utilizando CRM. Incluso cuando se cambian los sistemas de información, generalmente no hay dificultad para obtener informes.

Métodos y tipos de almacenamiento de datos.


Sin embargo, cuando el tamaño de la organización se vuelve lo suficientemente grande, o si desea aumentar su ventaja competitiva, ya no es suficiente crear un producto y llevarlo al mercado. Tendencias actuales: en un estudio exhaustivo del consumidor para aumentar su lealtad. Debe analizar el negocio desde diferentes ángulos y aprender a evaluar los costos con mayor precisión. Las tareas típicas de la categoría imprescindible son las siguientes:

  • cómo asignar gastos para unidades de minería de negocios
  • Cómo pronosticar la demanda en función de factores internos o externos
  • Cómo gestionar el riesgo en las organizaciones financieras y de seguros.
  • Cómo aumentar el cheque promedio del cliente (orientación)

Cada uno de los ejemplos anteriores requiere el uso de más de una fuente de datos. Además, es importante que los métodos para comparar datos entre fuentes sean consistentes. De lo contrario, inevitablemente surgirá una situación cuando la organización, por ejemplo, el director de estrategia y el director de ventas traiga la misma información al director general, pero con números diferentes. Y luego, un mes descubren quién estaba "a la derecha", utilizando casi la mitad del personal a su disposición.

La forma más primitiva de organizar un almacén de datos es el llamado "lago de datos" (o lago de datos), cuando simplemente tomamos y acumulamos datos de diferentes fuentes. En este caso, tenemos una única plataforma técnica para trabajar con datos y aislar consultas analíticas complejas de las tareas principales de los sistemas de información. Tal almacén de datos puede ser bastante irrelevante. Sin embargo, en este caso, puede olvidarse del análisis complejo y operar solo con consultas simples. Además, las personas que trabajan con datos deben tener conocimientos no solo sobre el área comercial, sino también sobre los modelos de datos de los sistemas fuente.

Además, según el nivel de organización del almacén de datos, sigue el almacenamiento, de acuerdo con el llamado Clasificación de Kimball (Kimpball). Las mediciones de diferentes sistemas están unificadas, y de esta manera obtenemos algo así como una red con dos tipos de tablas: hechos y mediciones. Este es el principal enriquecimiento de directorios, cuando nosotros, usando alguna clave natural común en las mismas tablas de diferentes fuentes, por ejemplo, TIN en el directorio de organizaciones, obtenemos una sola referencia.

El siguiente en complejidad y confiabilidad es un almacén de datos con un único modelo de datos que refleja los objetos más importantes que describen las actividades de la organización. La confiabilidad radica en el hecho de que los datos, presentados en una forma cercana a la tercera normal, con un modelo correctamente compuesto, son un medio universal para describir la vida de todo el negocio y, por lo tanto, el modelo de datos puede adaptarse fácilmente no solo para informes analíticos y regulatorios, sino y para el funcionamiento de algunos sistemas empresariales.

E - uno


Hablando de la tesis de este artículo, enumeraré los principales problemas que enfrentan los responsables de construir almacenes de datos:

" Caballo en el vacío ". El repositorio está construido, pero nadie lo usa.

La caja negra . El almacenamiento está construido, pero lo que contiene y cómo funciona es incomprensible. Debido a esto, ocurren errores constantes, y si una parte del equipo de desarrollo también ha renunciado, entonces como resultado, pasamos al punto a.

" Calculadora ". El almacenamiento está construido, pero solo satisface solicitudes primitivas, el negocio cambia mucho más rápido que la implementación de los requisitos, las nuevas solicitudes comerciales no se tienen en cuenta en él. Además, algunos datos pueden estar desactualizados o raramente actualizados.

" Florero de cristal ". Se necesitan muchas acciones de control manual, controles y control manual para el almacenamiento, si uno de los participantes de soporte no está en el trabajo, existe un gran riesgo de recibir datos no válidos o no recibirlos.

Analizaremos los cuatro casos con más detalle.

"Un caballo en el vacío". Si obtiene este resultado, esto sucedió por una de dos razones:

  1. Menos probable No recopiló requisitos de las unidades de negocio (o, lo que es lo mismo, estaban mal diseñados). Una situación tan aparentemente absurda surge si la idea de crear un repositorio no proviene de una empresa, sino de un departamento de TI, que simplemente tiene un presupuesto "extra", y el repositorio fue concebido porque todos lo tienen. Encontraremos clientes más tarde (incluso mejor es la opción "vendrán corriendo con las manos extendidas"), si ponemos todo allí. Las personas responsables de asignar el presupuesto consideran que esto es algo necesario, leen y escuchan en los libros, es como una modernización, y asienten de acuerdo.
  2. Más probable Los clientes del almacén de datos han sido identificados, por ejemplo, este es el departamento de ventas, y aquí surge la idea brillante: "hagamos un poco más de esfuerzo en el delta, manejemos las finanzas, el personal y un poco más y toda la empresa usará el almacenamiento". El almacén se ha construido, pero solo lo usa el departamento de ventas, aunque todo es hermoso allí y no quiero tomar las orillas de la leche, pero no, mis colegas no tienen tiempo para los bancos de Kissel, necesitan cavar un dato de la mañana a la noche. Después de todo, esta es una pieza obtenida por el sudor y la sangre (léase: tiempo dedicado).

En ambos casos, no hay ningún elemento en asumir la responsabilidad del alto directivo y reducirlo en la jerarquía. Es como con la cultura corporativa. Si el gen. Si el director de la empresa es de 2 diputados, solo el gen en sí puede hacer uso del almacenamiento a nivel de empresa. un ciervo, o el almacenamiento se está construyendo para parte de la empresa, el que está supervisado por el jefe de la posición más alta, que es consciente de la necesidad de introducir EDM.

Para eliminar tales situaciones, es necesario lo siguiente:

  1. Determinar formalmente el patrocinador del proyecto del almacén de datos, que será responsable del resultado tanto financiera como espiritualmente.
  2. Aprobar el alcance del proyecto, posiblemente en fases, indicar fechas aproximadas
  3. Coordinar con todos los departamentos, preferiblemente, con la construcción de procesos de negocio tal como está y por ser

Solo después de esto podemos comenzar a implementar el proyecto: reunir requisitos, diseñar la arquitectura, etc.

La caja negra . Por lo tanto, afirma que creó el repositorio, que se tienen en cuenta todos los requisitos, sin embargo, nadie entiende cómo usarlo, además, si uno de los desarrolladores clave se fue, se hace casi imposible entender qué se hizo y cómo.

En este caso, obviamente, no se configuró el proceso de documentación de desarrollo. El principio de "primera documentación", luego el desarrollo debe ser elevado, si no al Absoluto, a un control bastante estricto. Y no solo del equipo responsable del desarrollo del almacén de datos. Idealmente, es necesario que los desarrolladores de informes adicionales (analíticos, reguladores), los propietarios de los sistemas de información internos de la compañía y, por supuesto, los propios consumidores estén conectados al proceso de documentación continua y actualizada.

Además, el proceso de documentación debe cumplir los siguientes principios:

  • Relevancia: el estado actual del código del programa está completamente determinado por la composición de la documentación
  • Control de versiones: la capacidad de analizar la documentación de versiones anteriores y las modificaciones del plan para versiones futuras
  • Separación: varias personas pueden trabajar en un documento al mismo tiempo
  • Aplicabilidad Dice que para cada tipo de documentación de almacenamiento es importante elegir una estructura que sea mejor entendida por los usuarios objetivo: por ejemplo, la estructura de la tabla se describe mejor en forma tabular, procesos de negocios en forma de anotaciones, la interacción entre sistemas de información en forma de diagrama, negocios - un diccionario en forma de sistema wiki, etc.

Ahora hay productos de software que simplifican seriamente la vida, es decir para vincular el diseño y el desarrollo, pero aunque todavía no hay una solución completa para los almacenes de datos, estos son:

  • Cartas ER
  • Productos BPMN
  • Soluciones ETL

Sin documentación actualizada, aumentará la complejidad de desarrollar nuevos requisitos y, con documentación competente, disminuirá.

" Calculadora ". Si suponemos que no hemos recibido un "caballo en el vacío", entonces esta situación se trata de cuando los requisitos parecen cumplirse, pero se cumplen formalmente. Querías contar el resto del día, por favor. ¿Desea obtenerlos por región de contrapartes? Esto no estaba en los requisitos, debe cargar para sobresalir, luego tomar del sistema X cargar a los contratistas con una opción de campo Y, y luego VPR-ite.

La situación actual indica una falta de experiencia con el equipo, sin una vista arquitectónica del desarrollo posterior del repositorio, sin siquiera un modelo de datos primitivo. Por lo general, dichos repositorios se vuelven temporales o se olvidan rápidamente. En el buen sentido, la tienda debería tener el poder de una bola de nieve rodando desde una montaña. Al principio, cuando el bulto aún es pequeño y hay nieve suelta por delante, usted mismo apenas necesitará recogerlo y empujarlo. En algún momento, la fama sobre su producto se extenderá y los usuarios buscarán en la tienda cada vez más.

Entonces, para que el almacenamiento no resulte ser una calculadora, es necesario garantizar:

  1. personal calificado: arquitectos, analistas, desarrolladores de EtL y SQL
  2. La carta del proyecto, que indicará el propósito del almacenamiento no solo para el próximo período presupuestario, sino también para los años siguientes
  3. Criterios cuantitativos y cualitativos para un almacén de datos. Si no hay suficiente personal, se recomienda atraer consultores
  4. Imagine claramente lo que ayudará a optimizar el almacén de datos en el futuro: costos de personal, software, aumentar la velocidad de desarrollo de informes, etc.


" Florero de cristal ". El almacenamiento está construido, parece estar haciendo frente a sus tareas, pero necesita mucho esfuerzo para soportarlo: mantener algún tipo de directorios manuales, recargar constantemente algunas fuentes, fallas en la carga, duplicar datos, etc.

Esta situación puede ocurrir por las siguientes razones:

  1. Sobre esto se ha dicho anteriormente: la falta de personal calificado;
  2. Concepto no arquitectónico: cuando diferentes partes del almacenamiento están hechas por diferentes personas o equipos sin un concepto común aprobado, como resultado tenemos múltiples formas de extraer, transformar y cargar datos;
  3. Una situación muy común es el "desarrollo de outsourcing", su propio apoyo, mientras que la aceptación del trabajo se realiza mal
  4. En algún momento del desarrollo del repositorio, "se acabó el presupuesto". Y luego el almacenamiento está siendo finalizado (soportado) no por el equipo que lo creó, sino por aquellos que necesitan datos

Para evitar estas situaciones, se recomiendan las siguientes acciones:

  1. Los puntos anteriores incluyen personal calificado, los estatutos del proyecto, el plan a largo plazo y el presupuesto, y la persona interesada del gerente superior.
  2. No es la subcontratación la que lidera el proceso, sino un empleado interno (analista jefe o arquitecto) que supervisa la subcontratación.
  3. Cualquier situación fallida debe enviarse a las reuniones para su consideración por el arquitecto del almacén. Si hay varios arquitectos, entonces el comité de arquitectura.
  4. Se recomienda introducir una métrica de calidad para el almacén de datos; puede usar esta métrica para enlazar con el comando KPI.

Como se puede ver, en todos estos casos, a pesar del hecho de que la creación de un almacén de datos es una actividad del proyecto, los procesos de creación deben estar regulados para crear un resultado de alta calidad.

Transición de un almacén de datos a un único


Como se mencionó anteriormente, el éxito del proyecto para crear un almacén de datos está determinado por una gran cantidad de datos de entrada (presupuesto, patrocinador, equipo, objetivos, clientes). Sin embargo, prácticamente no tocamos los procesos de negocios que tienen como objetivo desarrollar y mantener el CD en sí. A continuación, trataré de formular los principales procesos comerciales, que están diseñados para hacer que los procesos de trabajo con datos en la empresa sean realmente unificados:

  1. Procesos para mantener actualizada la documentación técnica y del usuario
  2. Procesos para mantener actualizado el diccionario de negocios (glosario) de datos
  3. Procesos de control de calidad de datos
  4. Procesos para la recopilación y gestión de requisitos para CD y sistema de informes
  5. Procesos de gestión de infraestructura de almacenamiento
  6. Procesos para optimizar el almacenamiento y la recopilación de datos.

En el paradigma moderno, este conjunto de procesos empresariales forma la base del concepto de Gobierno de datos.

Muy a menudo, cuando se intenta implementar estos procesos a través de los esfuerzos del equipo de creación e informe de CD, se tomará una resistencia activa o se ignorarán los procesos. Es comprensible, porque en el sentido local es una extensión del desarrollo.

Por lo tanto, será útil realizar las siguientes acciones:

  • Introducción de una estructura de responsabilidad horizontal (cada participante puede ser responsable de un área pequeña)
  • Representación gráfica de todos los flujos de trabajo posibles para todos los empleados (formalización del proceso)
  • Implementación del porcentaje y calidad de responsabilidad en el sistema KPI

A pesar del hecho de que, en el sentido local, el proceso de transición parece ser significativamente "burocrático" y pesado, en el sentido global brinda ventajas significativas y ahorra tiempo. Desde la principal pérdida de tiempo: al inventar desde cero soluciones ya existentes debido a la imposibilidad o falta de deseo de comprender el mecanismo existente.

Un poco sobre la solución arquitectónica objetivo


A pesar de que la arquitectura del EDS se basa en un artículo grande por separado, o incluso en un libro, también indicaré los principales requisitos técnicos para un almacén de datos maduro:

  1. El paradigma del lago de datos no reemplaza los almacenes de datos corporativos, pero coexiste con él.
  2. El EDS debe tener varias interfaces de presentación de datos: herramientas bi, la capacidad de ejecutar consultas sql ad-hoc, suministro de datos estándar en json, xml, etc.
  3. Se debe implementar un modelo a seguir de acceso a datos.
  4. Velocidad de respuesta al acceder a los datos: 90% de consultas típicas - menos de 1 segundo, 99% de consultas - menos de 10 segundos. Debería haber un suministro de recursos bastante bueno
  5. La presencia de una capa central única y conectada de HD (preferiblemente - metodología Inmon)

Como resultado, el almacén de datos se llama unificado, no por la disponibilidad de las fuentes, sino por la disponibilidad de los consumidores de datos. Y esto es mucho más complicado que escribir un ETL universal y ajustar los petabytes de memoria.

Source: https://habr.com/ru/post/es418361/


All Articles