Oi Tendo as informações necessárias, você pode fazer muitas coisas úteis (ou muito perigosas), depende de quem tem essas informações e o que elas motivam. Para trabalhar com informações, faça os uploads necessários, compile relatórios e armazene essas informações em algum lugar. Por isso, criamos um enorme lago de dados de marketing
Meu nome é Andrey Naumov, trabalho na equipe de gerenciamento de dados corporativos e faço um produto para marketing e vendas. Nossa tarefa é preencher esse lago com dados (porque que tipo de lago de dados fica então sem dados) para que pessoas de negócios e usuários diretos entre os funcionários que precisam criar análises detalhadas possam trabalhar produtivamente com ele.
Sob o corte - sobre o motivo pelo qual precisávamos desse lago, como o construímos, como ele ajuda a entrar em novos mercados de vendas dentro e fora do país, bem como sobre nossos planos para o futuro.
Por que é necessário?
Antes da criação de um único lago de dados, a situação com o processamento de informações deixava muito a desejar. Não, tudo funcionou, mas poderia ser muito melhor. Primeiro, vou contar como os caras trabalham em nosso marketing.
Eles trabalham com uma quantidade enorme de informações de muitas fontes de dados. Estas são fontes dentro e fora da SIBUR, disponíveis gratuitamente e disponíveis apenas por assinatura, grátis e pagas. Em geral, o zoológico ainda está lá. A maioria dessas informações são arquivos grandes e simples que requerem software especializado para trabalhar. Muitas vezes ao mesmo tempo - para cada tipo de dados, seu próprio software. É claro que esse software geralmente funciona de maneira instável ou até sem rodeios.
Por exemplo, a maior parte do trabalho de marketing está ligada ao estudo dos fluxos de mercadorias (incluindo importação e exportação), com a ajuda deles é possível entender quais mercadorias estão saindo da Rússia e quais, pelo contrário, estão chegando. Aqui, estamos interessados exatamente nos produtos que a SIBUR pode vender ou criar direta ou indiretamente. As informações processadas por esse sistema são fornecidas em lotes, durante meses. Construir algum tipo de análise inteligível, digamos, em um ano ou uma década, era impossível, porque descansamos nas limitações do software - no mesmo Excel há um certo número máximo de linhas. E recuperamos tabelas para mais de um milhão de linhas. Os PCs em funcionamento não banalizaram esse bullying.
E esses são apenas fluxos de mercadorias como uma das fontes, e existem muitas fontes - também existem estatísticas ferroviárias, informações de sistemas internos sobre vendas da empresa, fontes especializadas, relatórios solicitados a agências externas e muito, muito mais.
O que fazer
Havia uma tarefa - criar uma única versão da documentação em um único local para que cada usuário pudesse trabalhar com dados usando uma ferramenta de visualização e criar análises. Na opção Do, tivemos o maior desfoque dos profissionais de marketing por causa do próprio estágio da preparação dos dados. De fato, nossos profissionais de marketing passaram muito tempo trabalhando como engenheiros de dados. Isto está errado.
Foi muito difícil trabalhar e analisar dados no contexto de mais de um ano. Porque, mesmo tendo preparado e enviado certos dados para o ano, eles precisavam ser cuidadosamente limpos. De duplicatas, de erros, de nomes incorretos. Algumas linhas exigiam unificação, por exemplo, alguém na mesa tinha nossa imensa pátria chamada "Rússia", alguém - "Federação Russa" e alguém digitou sucintamente "RF". Tudo isso teve que ser reduzido a uma visão e, como você sabe, o exemplo com o nome do país está longe de ser o único e não o mais óbvio.
E o fato é que somos uma holding, temos muitas organizações e nem todos têm a palavra "SIBUR" no nome. Portanto, tentar pesquisar na lista e querer filtrar os nomes em alguns cliques para que apenas a holding possa ser vista, alcançar o resultado não foi fácil.
Além disso, quantas pessoas - tantas abordagens para resolver problemas de trabalho. Cada funcionário tinha sua própria metodologia para processamento, filtragem, mapeamento e combinação de dados. O problema é que essa técnica existia na cabeça de um funcionário. Portanto, naquela época, muito estava ligado a uma pessoa específica. Essa também não é a história mais divertida, porque você precisa descarregar algo - e a pessoa está de férias. E sente-se, espere por ele. Porque sem ele eles o farão por muito mais tempo, ou eles farão isso errado.
Em geral, decidimos garantir que não houvesse dependência de uma pessoa em particular, que todas as informações fossem gerais e acessíveis no mesmo nível para qualquer usuário que pudesse precisar.
Para fazer isso, fomos primeiro aos negócios e esclarecemos com eles quais das fontes de dados seriam mais interessantes para eles. Nós os selecionamos, preparamos para eles um data warehouse piloto com tecnologias de data lake (descrevemos esse lago em detalhes e com diagramas
neste post ). E então, usando várias ferramentas de ETL, eles colocaram todas essas fontes necessárias lá uma vez: fluxos de mercadorias, estatísticas de produtos etc. A tarefa era fazer a integração de tudo o que é possível, o que fizemos.
Para visualização de dados, usamos o Tableau, sua versão do servidor foi parafusada no repositório e demos aos usuários acesso a todos os dados de uma só vez. Os usuários, devo dizer, foram incentivados - antes de você se sentar e encarar as mesas (mesas enormes), mas agora você tem tudo visualizado de maneira conveniente e bonita.
Análise de Fluxo de Produto
Análise do produto
Análise do concorrenteObviamente, nossos analistas não veem muitas linhas borradas na tela, mas números e nomes bastante reais de contrapartes, mas não podemos mostrá-las.
Além dos usuários, houve feedback útil. Nos foi dado a entender que os dados brutos (brutos) não são muito interessantes para eles, porque cada um deles estava envolvido em seu próprio pré-treinamento. Portanto, começamos a elaborar os mapeamentos e renomeações mais frequentes, reescrevemos contrapartes e corrigimos muitos erros - poderia haver duplicatas e sinais de pontuação nas colunas, alguém poderia inserir suas contrapartes próximo ao nome da empresa. Em geral, havia lixo suficiente.
Eles trouxeram os países para uma visão comum, ajudou a colapsar e abri-los por região - os funcionários podem descarregar com alguns cliques na CEI, nos países da América do Sul ou do Norte, o que é bastante importante para análises adequadas. O colapso é uma coisa conveniente, por isso decidimos estender essa prática a entidades legais - como nos países, apenas a escala de participações e entidades legais individuais.
Por que a análise é importante para trabalhar com o mercado
Graças ao trabalho realizado, tornou-se possível exibir relatórios nos últimos 15 a 20 anos em termos de importação e exportação e, ao mesmo tempo, não enlouquecer e não queimar alguns PCs em funcionamento. Agora você pode aproveitar esse período e implantá-lo por ano ou falhar por mês.
Então aqui. Nos fluxos de mercadorias, existe o TNVED, a nomenclatura de mercadorias da atividade econômica estrangeira. Este é um máximo de 10 dígitos. Quanto mais números - mais específica é a indicação de um produto específico.
Veja o exemplo do café.
09 - café, chá, mate, chá paraguaio, especiarias. Categoria bastante geral.
0901 2 - já nos informará que estamos falando de café torrado.
0901 21 - café torrado com cafeína (não torrado e descafeinado tem um código diferente).
0901 21 000 2 - esses mesmos 10 dígitos finais, isso já é robusta (Coffea canephora).
O mesmo vale para produtos que são importantes para nós. Ou seja, o que vendemos e produzimos. É claro que o café também é importante, mas até agora não o consumimos em quantidades que permitam descarregar estatísticas sobre as importações.
E os polímeros, plásticos e matérias-primas necessárias para sua fabricação são importantes para nós.
Aqui os códigos já estão assim.
39-40 - plásticos e suas obras; borracha, borracha e suas obras.
3901 - polímeros de etileno em formas primárias
3901 1 - polietileno com gravidade específica inferior a 0,94
3901 10 100 0 - polietileno linear.
E assim, para cada polímero ou tipo de matéria-prima, falhamos do geral para o particular. Por que se preocupar em assistir isso? Usando dados sobre fluxos, pode-se entender com alguns detalhes que uma certa quantidade de polímeros foi importada para a Federação Russa ao longo do ano. Ou matérias-primas. Ou seja, alguém compra produtos fora do país que produzimos, incluindo nós aqui na Federação Russa. Além disso, há a oportunidade de ver até que ponto ele é comprado, com a ajuda de analistas avançados, você pode procurar os preços certos e, finalmente, possibilitar alcançar esse cliente com o mesmo produto, mas o que fazemos aqui, e oferecer a ele esse produto em preço razoável. Dado os meios que ele gasta em direitos aduaneiros e transporte.
Com exportação o mesmo. Um dos produtos nos interessa é frequentemente exportado para o exterior. Portanto, há uma demanda por isso, em uma escala muito constante e boa. Então, você pode ver o que é, a quem vai e quanto eles pagam por isso. Depois, descubra se podemos fazer o mesmo, levando em consideração os custos da logística, faça sentido ou não.
E também ajuda a observar a atividade dos concorrentes no mesmo campo e, se necessário, ajustar seus números.
Mas seria muito simples se o TNVED sempre deixasse claro exatamente quais mercadorias estavam viajando, certo?
Portanto, alguns cidadãos importam polietileno com um código TNVED diferente, mas aqui nossos analistas podem estudar outros campos nos dados dos fluxos de mercadorias e, a partir da totalidade dos sinais, entender que é exatamente polietileno, e não o que é indicado no código. Isso ajuda a ver volumes adicionais de exportações e importações, que, na primeira verificação, podem evitar atenção. Com base nesses dados, já podemos estimar - e, de repente, faz sentido abrir produção adicional, que será recompensada, a julgar pelos números e volumes.
Além disso, podemos enriquecer esses relatórios com a ajuda da análise e do conhecimento dos próprios funcionários - um novo campo aparece no banco de dados, por exemplo, um “produto”, do qual agora também é possível fazer amostras e criar relatórios. E para cada produto específico (e isso é determinado pelo TNVED e pelo conhecimento especializado dos colegas), verifique se temos alguns clientes em potencial no país e muitos outros fora dele. Portanto, você pode começar a fazer matérias-primas para eles ou até o produto final.
Precisamos ir mais fundo
Você pode ir além - escolhendo esses destinatários dentro do país, podemos ver o que esses caras ainda encomendam para si mesmos daqueles bens aos quais estamos relacionados. De repente, eles estão interessados não apenas em polietileno, mas também em polipropileno, além de alguns tipos de filmes de BOPP? Acontece um amplo escopo de conhecimento sobre um determinado consumidor, tendo estudado quais, você pode oferecer imediatamente a ele os bens, o preço certo e as condições confortáveis.
O que temos agoraContinuamos trabalhando iterativamente - inserimos dados, coletamos feedback dos usuários e refinamos nossas regras analíticas. Acontece um tipo de trabalho em equipe, aprendemos algo deles, eles de nós, porque eles têm um conhecimento especializado muito bom e nós temos conhecimento técnico.
Depois de baixar as fontes mais críticas e a preparação básica desses dados, finalmente passamos do armazenamento de teste (todo esse tempo ainda estamos no teste, sim) para o combate. Isso removerá muitos problemas, porque combate = certificado, e armazena muitos dados que não puderam ser enviados ao teste (segredos comerciais e outras coisas que também são importantes para a análise). Agora, de fato, será um único lago de dados com um grande número de fontes. Incluindo dados de cotação - nossos colegas da análise avançada são capazes de prever os preços de um determinado produto analisando muitos fatores - essas podem ser as ações da empresa, desastres naturais nas regiões de produção, rumores sobre fusões e aquisições e até mesmo um tweet mal sucedido de alguém guias.
A análise preditiva usa dados e fornece previsões, essas mesmas previsões são adicionadas ao data lake e o marketing pode usá-las para seus relatórios e análises.
Acontece esse ciclo de dados dentro de um lago. Até agora, todos estão felizes - os negócios, as revisões são o mais positivas possíveis, porque entendem quanto tempo e esforço esse projeto economiza e os próprios analistas.
Então, estamos trabalhando. E quem deseja extrair o máximo conosco dos dados - bem-vindo à página do trabalho em
hh.ru.