
"Quantos cientistas você precisa para transformar uma lâmpada?"
- Primeiro, se a seleção histórica de lâmpadas torcidas com sucesso for suficiente.
Isso, é claro, é uma piada, mas quando em uma empresa se trata de domar big data para melhorar o desempenho dos negócios, nem todo mundo entende quem vai domar. A opinião clássica: você precisa de um cientista de dados - um analista de dados que possa construir modelos, entender inteligência artificial e aprendizado de máquina. E este homem decide tudo em uma cabeça.
Além disso, existe uma tendência de que, quando uma divisão de Big Data for formada em uma empresa, os Cientistas de Dados sejam os que são contratados principalmente.
Na realidade, tudo é mais complicado. Sem a data do cientista, é claro, não há trabalho com big data, mas ele não é um guerreiro sozinho no campo. Quem mais deveria lutar ombro a ombro com ele é melhor compreendido por exemplos.
Mediador
Digamos que haja uma rede de academias que desejem usar big data. O Data Scientist resolve o problema de prever que o cliente, além do treinamento básico, esteja inclinado a usar outros pessoais. O especialista coleta dados sobre quem fez o que antes e cria um modelo de dependência.
Surge a pergunta - que treinamento? E como vamos propor que ele vá até eles? Será necessário dividir claramente o treinamento em masculino e feminino. Dividido pela lógica comercial - se uma pessoa já estiver envolvida com um treinador premium, não devemos oferecer o não-premium.
Ou um exemplo do setor bancário. Os bancos têm produtos que são vendidos por conta própria e existem aqueles que são frequentemente vendidos junto com outros. Compramos um cartão ou tomamos um empréstimo e, ao mesmo tempo, vendemos seguros. Uma história semelhante nas companhias de seguros. Podemos comprar um seguro de carro, mas, ao mesmo tempo, podemos vender o seguro de vida em paralelo.
Portanto, se você não conhece o negócio, mas a tarefa é prever algum tipo de compra, faça o seguinte: "Veja, muitos de nossos clientes compram esse treinamento / seguro". E comece a criar modelos para estimular as vendas. Mas as empresas sabem que esse treinamento / seguro só é válido com alguma coisa. E até o modelo pode ser bom, mas o produto não funcionará separadamente.
Ao criar um modelo, sempre há um conjunto de notas introdutórias relacionadas a como o negócio funciona. E se as formulássemos incorretamente, não haverá sentido. Portanto, além dos dados reais do cientista, você precisa de um proprietário do produto - um gerente de produto que fará amizade matemática com os negócios.
Essas duas funções são essenciais para uma equipe de big data. Importante: se tivermos várias linhas de negócios, para cada direção, precisamos de nosso próprio produto. O Data Scientist pode ser universal.
Você pode até dizer que o proprietário do produto é quem inicia tudo. Quem cria os estudos de caso de aprendizado de máquina em uma determinada empresa e depois orienta a implementação desses casos.
Mas como eles dizem, e isso não é tudo.
Programador Digger
Imagine que um banco decidiu promover um cartão especial para clientes que costumam viajar para o exterior. Que dados históricos ele pode se orientar para formar o chamado sinal? O mais óbvio é que, em algum momento, houve uma transação no exterior no cartão do cliente. O sintoma é simples, mas precisa receber requisitos claros. Quantas vezes por ano essas transações eram realizadas? Em que pontos? Por que período? Tudo isso precisa ser formulado e codificado a partir de dados simples para que o atributo seja selecionado corretamente. Para fazer isso, você precisa de uma pessoa separada - um engenheiro de dados.
As tarefas dos papéis são realmente diferentes. O Data Scientist deve construir um bom modelo. A cabeça está preocupada em escolher quais recursos, casos, algoritmos usar, como otimizar para que o modelo funcione rapidamente. E um engenheiro de dados é mais como um programador ou desenvolvedor de banco de dados. Ele precisa coletar dados de 10/100/500 tabelas e fontes diferentes, calcular isso, comparar isso, levar isso em conta, isso e aquilo.
Um ponto importante: o engenheiro de dados não liga na primeira etapa. Como já vimos, o ciclo de desenvolvimento consiste em etapas experimentais (MVP - produto minimamente viável) e produtivas. Enquanto estamos experimentando, é muito difícil descrever claramente os dados para o engenheiro cada vez que dados carregar. Há criatividade, hipóteses estão sendo elaboradas, dados estão girando de maneiras diferentes. Aqui, até o menor desconforto entre o cientista e o engenheiro atrasa a prontidão do MVP por semanas.
Mais precisamente, o Data Engineer faz a primeira iteração da preparação dos dados, pois, se não houver dados, o Data Scientist não terá nada com o que trabalhar. Além disso, o Data Scientist cria iterativamente recursos para o modelo. Depois que o modelo é bem-sucedido e precisa ser convertido em um Engenheiro de Dados produtivo de acordo com a especificação do Data Scientist, ele grava um código produtivo para o cálculo regular da característica.
Portanto, a tendência atual: no estágio MVP, o cientista prepara os dados de forma independente. Mas então, quando o modelo é construído e todos o aceitam, o Cientista de Dados descreve claramente como os atributos de que ele precisa são formados e o transmite a uma pessoa treinada separadamente. Ele os programa para que sejam constantemente usados no produto.
Por outro lado, essa história também pode ser distorcida - se a meta de negócios ainda não foi determinada, mas a empresa possui uma enorme variedade de dados que você deseja usar.
Nesse caso, tentamos condicionalmente 100 casos, 100 MVP, nos quais é possível filmar. Se você expandir o processo de construção do MVP em cada caso individual, 80% vai para a preparação de dados, 20% - para o próprio modelo. A cada vez, os dados devem ser obtidos de fontes diferentes e de vários formatos. Colete-os em sinais lógicos e compreensíveis: por exemplo, "uma transação no ponto N" deve se transformar em uma "viagem ao exterior tantas vezes por ano".
Este trabalho leva muito tempo. Se usamos algum tipo de vetor de dados e construímos um modelo, que acabou sendo ruim, voltamos e carregamos os dados novamente. Com cada caso em 100. Você pode otimizar essas iterações de apenas uma maneira - se tivermos uma grande "vitrine" com todos os atributos possíveis - milhares, dezenas de milhares. Criar essa "vitrine" é tarefa de um engenheiro de data, sob a direção de um cientista de data. As experiências são aceleradas significativamente - os parâmetros de entrada dos modelos podem ser selecionados e alterados rapidamente.
Condutores de Big Data para orquestra
Coletamos dados, construímos um modelo, fizemos amizade com os negócios. Isso é tudo?
Nem todos. Essa história de big data deve ter um líder. Parece que este post é o mais simples e mais compreensível, mas isso não é inteiramente verdade. O líder deve combinar duas propriedades que geralmente não são muito combinadas.
Se iniciarmos o big data do zero em uma empresa, precisamos de um estrategista e um vendedor como o principal e o direcionador da direção. Ele explicará a toda a empresa por que trabalhar com big data é tão importante. É claro que, no início de algo inovador, é muito difícil solicitar um caso comercial claro, porque ele se baseia em um grande número de suposições. Portanto, o estrategista irá explicar: pessoal, planejaremos big data com o princípio de "cima para baixo" (cima para baixo). E defina metas de vários graus de globalidade, como:
- para que, após 5 anos, a receita de projetos e produtos relacionados a big data represente 10% de nossa receita
- reduza os riscos de inadimplência em 20%
- reduzir 30% dos escritórios ineficientes
e assim por diante.
Por outro lado, esse estrategista deve ser capaz de vender a ideia dentro da organização.
O problema é que, se essa pessoa já foi encontrada, é difícil para ela em questões táticas. Para incorporar as idéias de um estrategista no nível físico, você precisa de uma pessoa operacional. Ele criará processos de negócios, analistas, gerentes de produto, fará tudo com agilidade. É importante que tudo isso funcione rapidamente. Portanto, a liderança é dividida em duas partes: o estrategista é responsável por um futuro brilhante, o operador é subordinado ao estrategista e implementa planos. Nenhum deles pode lidar sozinho.
Você ainda pode ver esse problema de um ângulo completamente diferente. Imagine que a implementação das tecnologias de Big Data seja planejada em uma grande empresa de produção clássica para a qual essas tecnologias são novas. Quem colocar no comando? Uma pessoa de fora, com vasta experiência na aplicação de big data em diferentes setores e conhecimento nessa área, ou uma pessoa de dentro, que está na empresa há muito tempo, tem uma posição bastante alta, implementou muitos projetos que todos conhecem e respeitam?
Eu acho que está claro que uma pessoa de dentro, que sabe como a empresa trabalha por dentro, conhece as pessoas e os processos de lá, conseguirão mais. Assim, para ajudá-lo, você precisa colocar uma pessoa de fora, com experiência na implementação do Big Data, para que ele indique as instruções necessárias e gerencie a equipe de Big Data.
Coloque ao sol
Decidimos sobre a composição. Resta subordinar a orquestra de big data ao departamento certo.
É lógico defini-lo na direção dos negócios que estamos otimizando. É bom se a empresa estiver madura. Depois, você pode tentar colocar big data nas vendas-alvo. Precisamos de um ramo comercial para fazê-lo funcionar. Por exemplo, para um banco, se queremos reter clientes, precisamos de uma agência que possa se comunicar com os clientes selecionados pelo modelo e realmente mantê-los. Se você deseja usar big data para planejar a localização dos escritórios bancários, precisará de uma filial que lide com a abertura desses escritórios. Queremos otimizar os dados para a pontuação bancária - precisamos de uma filial responsável pelos riscos. Sem a direção do negócio responsável por trabalhar com os resultados do modelo, nada resultará disso.
Globalmente, sem o suporte diretamente de cima, o tópico simplesmente não decola - você precisa da mesma estratégia de cima para baixo. Especialmente quando você precisa do apoio de uma direção que já está ocupada com seus processos e é vesgo a todo tipo de inovação.
Deseja saber mais sobre os aspectos da implementação do Big Data nas empresas, leia nossas outras publicações em nosso
site ou venha estudar na
Escola de DadosO post foi preparado
pela Escola de Dados com base na publicação do fundador da Escola no
Business HUB da Kyivstar PJSC