Hola Teniendo la información necesaria, puede hacer muchas cosas útiles (o muchas cosas extremadamente dañinas), depende de quién tenga esta información y de qué lo motive. Para trabajar con información, realice las cargas que necesita, compile informes, necesita almacenar esta información en algún lugar. Entonces creamos un gran lago de datos de marketing
Mi nombre es Andrey Naumov, trabajo en el equipo de gestión de datos corporativos y hago un producto para marketing y ventas. Nuestra tarea es llenar este lago con datos (porque qué tipo de lago de datos es entonces sin datos) para que tanto las personas de negocios como los usuarios directos de los empleados que necesitan crear análisis detallados puedan trabajar productivamente con él.
Debajo del recorte, sobre por qué incluso necesitábamos un lago de este tipo, cómo lo construimos, cómo ayuda a ingresar a nuevos mercados de ventas dentro y fuera del país, así como sobre nuestros planes para el futuro.
¿Por qué es necesario?
Antes de la creación de un único lago de datos, la situación con el procesamiento de la información dejaba mucho que desear. No, todo funcionó, pero podría ser mucho mejor. Primero, te diré cómo trabajan los chicos en nuestro marketing.
Trabajan con una gran cantidad de información de muchas fuentes de datos. Estas son fuentes dentro y fuera de SIBUR, que están disponibles gratuitamente y disponibles solo por suscripción, gratuitas y de pago. En general, el zoológico todavía está allí. La mayor parte de esta información son archivos enormes y planos que requieren un software especializado para trabajar. A menudo al mismo tiempo, para cada tipo de datos, su propio software. Está claro, a menudo este software funciona de manera inestable o incluso sin rodeos.
Por ejemplo, la mayor parte del trabajo de marketing está ligado al estudio de los flujos de productos (incluidas las importaciones y exportaciones), con su ayuda es posible comprender qué productos están saliendo de Rusia y cuáles, por el contrario, están llegando. Aquí nos interesan exactamente los productos que SIBUR puede vender o crear directa o indirectamente. La información que procesa este sistema viene en lotes, durante meses. Construir algún tipo de análisis inteligible, por ejemplo, en un año o una década, era imposible, porque nos basábamos en las limitaciones del software: en el mismo Excel hay un cierto máximo de líneas. Y recuperamos tablas para más de un millón de filas. Las PC que trabajan no trivializaron tal intimidación.
Y estos son solo flujos de productos básicos como una de las fuentes, y hay muchas de esas fuentes: también hay estadísticas ferroviarias, información de sistemas internos sobre ventas de la compañía, fuentes expertas, informes ordenados a agencias externas y mucho, mucho más.
Que hacer
Había una tarea: crear una única versión de la documentación en un solo lugar para que cada usuario pueda trabajar con datos utilizando una herramienta de visualización y crear análisis. En la opción Do, tuvimos el desenfoque más salvaje de los especialistas en marketing debido a la etapa misma de preparación de datos. Resultó de hecho que nuestros especialistas en marketing dedicaron mucho tiempo a trabajar como ingenieros de datos. Esto esta mal.
Fue muy difícil trabajar y analizar datos en el contexto de más de un año. Porque incluso después de haber preparado y cargado ciertos datos para el año, tuvieron que limpiarse a fondo. De duplicados, de errores, de nombres incorrectos. Algunas líneas requerían la unificación, por ejemplo, alguien en la mesa tenía nuestra vasta patria llamada "Rusia", alguien - la "Federación de Rusia", y alguien ingresó sucintamente a la "RF". Todo esto tuvo que reducirse a una sola vista y, como saben, el ejemplo con el nombre del país está lejos de ser el único y no el más obvio.
Y es que somos una compañía holding, tenemos muchas organizaciones y no todos tienen la palabra "SIBUR" en el nombre. Por lo tanto, tratar de buscar en la lista y querer filtrar los nombres en un par de clics para que solo se pueda ver la compañía matriz, lograr el resultado no fue fácil.
Además, cuántas personas, tantos enfoques para resolver problemas de trabajo. Cada empleado tenía su propia metodología para el procesamiento, filtrado, mapeo y combinación de datos. El problema es que esta técnica existía en la cabeza de un empleado. Por lo tanto, en ese momento mucho estaba vinculado a una persona específica. Esta tampoco es la historia más divertida, porque necesitas descargar algo, y la persona está de vacaciones. Y siéntate, espéralo. Porque sin él lo harán mucho más tiempo o lo harán mal.
En general, decidimos asegurarnos de que no existiera dependencia de una persona en particular, que toda la información fuera general y accesible al mismo nivel para cualquier usuario que pudiera necesitarla.
Para hacer esto, primero fuimos a los negocios y aclaramos con ellos cuál de las fuentes de datos sería más interesante para ellos. Los seleccionamos, preparamos para ellos un almacén de datos piloto con tecnologías de lago de datos (describimos este lago en detalle y con diagramas
en esta publicación ). Y luego, utilizando una serie de herramientas ETL, vertieron todas estas fuentes necesarias allí una vez: flujos de bienes, estadísticas de productos, etc. La tarea consistía en hacer la integración de todo lo posible, lo cual hicimos.
Para la visualización de datos, utilizamos Tableau, su versión del servidor se atornilló al repositorio y les dimos a los usuarios acceso a todos los datos a la vez. Debo decir que los usuarios se sintieron alentados, antes de sentarse y mirar las mesas (mesas enormes), pero ahora tiene todo muy bien y cómodamente visualizado.
Análisis de flujo de producto
Análisis de producto.
Análisis de la competencia.Por supuesto, nuestros analistas no ven un montón de líneas manchadas en la pantalla, sino números y nombres bastante reales de contrapartes, pero no podemos mostrarlos.
Más allá de los usuarios fueron comentarios útiles. Nos dieron a entender que los datos sin procesar (sin procesar) no son muy interesantes para ellos, porque cada uno de ellos participó en su propio entrenamiento previo. Por lo tanto, comenzamos a resolver las asignaciones y los cambios de nombre más frecuentes, reescribimos las contrapartes y solucionamos muchos errores: podría haber duplicados y signos de puntuación en las columnas, alguien podría ingresar sus contrapartes al lado del nombre de la empresa. En general, había suficiente basura.
Llevaron a los países a una visión común, ayudó a colapsar y abrirlos por región: los empleados pueden descargar en un par de clics en la CEI, en los países de América del Sur o del Norte, lo cual es bastante importante para un análisis adecuado. El colapso es algo conveniente, por lo que decidimos extender esta práctica a las entidades jurídicas, al igual que con los países, solo la escala de las tenencias y las entidades jurídicas individuales.
¿Por qué el análisis es importante para trabajar con el mercado?
Gracias al trabajo realizado, fue posible mostrar informes de los últimos 15-20 años en términos de importación y exportación, y al mismo tiempo no volverse loco y no quemar un par de PC que funcionan. Ahora puede tomar este período de tiempo e implementarlo por año o fallar por mes.
Entonces aquí. En los flujos de mercancías existe una TNVED, la nomenclatura de mercancías de la actividad económica extranjera. Esto es un máximo de 10 dígitos. Cuantos más números, más específica es la indicación de un producto en particular.
Mira el ejemplo del café.
09 - café, té, mate, té paraguayo, especias. Categoría bastante general.
0901 2 - ya nos hará saber que estamos hablando de café tostado.
0901 21 - café tostado con cafeína (no tostado y descafeinado tiene un código diferente).
0901 21 000 2 - esos mismos 10 dígitos finales, esto ya es robusta (Coffea canephora).
Lo mismo ocurre con los productos que nos importan. Es decir, que vendemos y producimos. Por supuesto, el café también es importante, pero hasta ahora no lo consumimos en cantidades tales como para descargar estadísticas sobre las importaciones.
Y los polímeros, plásticos y materias primas necesarios para su fabricación son importantes para nosotros.
Aquí los códigos ya se ven de esa manera.
39-40 - plásticos y sus manufacturas; caucho, caucho y sus manufacturas.
3901 - polímeros de etileno en formas primarias
3901 1 - polietileno con un peso específico inferior a 0,94
3901 10100 0 - polietileno lineal.
Y así, para cada polímero o tipo de materia prima, fallamos de lo general a lo particular. ¿Por qué molestarse en ver esto? Usando datos sobre flujos, se puede entender con cierto detalle que se importó una cierta cantidad de polímeros a la Federación Rusa durante el año. O materias primas. Es decir, alguien compra productos fuera del país que producimos, incluidos nosotros aquí en la Federación Rusa. Además, existe la oportunidad de ver hasta qué punto se compra, con la ayuda de muchachos de análisis avanzado, puede apuntar a los precios correctos y, en última instancia, hacer posible llegar a ese cliente con el mismo producto, pero lo que hacemos aquí, y ofrecerle dicho producto en precio razonable Teniendo en cuenta los medios que gasta en derechos de aduana y transporte.
Con exportar lo mismo. Uno de los productos que nos interesa a menudo se exporta al extranjero. Por lo tanto, existe una demanda para ello, en una escala muy constante y buena. Entonces, puedes ver qué es, a quién va y cuánto pagan por él. Luego, averigüe si podemos hacer lo mismo, teniendo en cuenta los costos de logística, tenga sentido o no.
Y también ayuda a observar la actividad de los competidores en el mismo campo y, si es necesario, ajustar sus números.
Pero sería demasiado simple si el TNVED siempre dejara claro exactamente qué mercancías viajaban, ¿verdad?
Por lo tanto, algunos ciudadanos importan polietileno bajo un código TNVED diferente, pero aquí nuestros analistas pueden estudiar otros campos en los datos de flujos de productos y luego, utilizando la totalidad de los signos, comprender que esto es exactamente polietileno, y no lo que se indica en el código. Esto ayuda a ver volúmenes adicionales de exportaciones e importaciones, que, en los primeros controles, pueden eludir la atención. Sobre la base de dichos datos, ya podemos estimar, y de repente tiene sentido para nosotros abrir una producción adicional, que dará sus frutos, a juzgar por los números y los volúmenes.
Además, podemos enriquecer dichos informes con la ayuda del análisis y la experiencia de los propios empleados: aparece un nuevo campo en la base de datos, por ejemplo, el "producto", desde el cual ahora también es posible realizar selecciones y generar informes. Y para cada producto específico (y esto lo determinan tanto TNVED como el conocimiento experto de colegas), tenga en cuenta que tenemos un par de clientes potenciales dentro del país y varios más fuera de él. Por lo tanto, puede comenzar a hacer materias primas para ellos, o incluso el producto final.
Necesitamos profundizar
Puede ir más allá: al elegir dichos destinatarios dentro del país, podemos ver lo que estos tipos todavía se ordenan a sí mismos de los productos con los que estamos relacionados. ¿De repente, están interesados no solo en el polietileno, sino también en el polipropileno, así como en algunos tipos de película BOPP? Resulta un conocimiento bastante extenso sobre un consumidor en particular, después de haber estudiado qué, puede ofrecerle de inmediato los productos, el precio correcto y las condiciones cómodas.
Lo que tenemos ahoraContinuamos trabajando de forma iterativa: ingresamos datos, recopilamos comentarios de los usuarios y refinamos nuestras reglas analíticas. Resulta una especie de trabajo en equipo, aprendemos algo de ellos, ellos de nosotros, porque tienen muy buenos conocimientos expertos y nosotros tenemos conocimientos técnicos.
Después de descargar las fuentes más críticas y la preparación básica de estos datos, finalmente pasamos del almacenamiento de prueba (todo este tiempo todavía estamos en la prueba, sí) para combatir. Esto eliminará muchos problemas, porque combate = certificado, y almacena una gran cantidad de datos que no se pudieron alimentar a la prueba (secretos comerciales y otras cosas que también son importantes para el análisis). Ahora será, de hecho, un único lago de datos con una gran cantidad de fuentes. Incluyendo datos de cotizaciones: nuestros colegas de análisis avanzado pueden predecir los precios de un producto en particular mediante el análisis de muchos factores: estas pueden ser las acciones de la compañía, los desastres naturales en las regiones de producción, los rumores sobre fusiones y adquisiciones e incluso un tuit fallido de alguien guías
El análisis predictivo utiliza datos y proporciona pronósticos, estos mismos pronósticos se agregan al lago de datos y el marketing puede usarlos para sus informes y análisis.
Resulta tal ciclo de datos dentro de un lago. Hasta ahora, todos están contentos: el negocio, las revisiones son tan positivas como sea posible, porque entienden cuánto tiempo y esfuerzo ahorra este proyecto, y los propios analistas.
Entonces estamos trabajando. Y quién quiere extraer el máximo con nosotros de los datos: bienvenido a la página de trabajo en
hh.ru.