
A Data Science começou a chegar não apenas às grandes empresas, mas também às pequenas e até às startups. No entanto, muitas vezes os gerentes de topo não entendem o que é necessário para sua aplicação bem-sucedida. Muitas pessoas pensam que um cientista de dados em um mês resolverá todos os problemas da empresa, e a inteligência artificial ao clicar começará a funcionar perfeitamente em todos os departamentos. Infelizmente, isso não é verdade. Meu nome é Ivan Serov e, neste post, mostrarei por que você precisa começar a criar um departamento de DS e quais dificuldades ele envolve.
Gerenciamento de expectativas
Um dos mais importantes na criação de um departamento é definir imediatamente as expectativas e o KPI. Com o DS, como em qualquer outra inovação, você precisa passar por todo o ciclo, que começará com perdas operacionais. Na melhor das hipóteses, os custos de arquitetura e especialistas podem ser recuperados em seis meses e, mais frequentemente, em um ano, dois ou três, dependendo do tamanho da empresa. É necessário estar preparado para isso e não desistir de tudo após algumas falhas. Muitas vezes, os principais gerentes fecham o departamento depois de um ano, porque ele não conseguiu obter lucro. Por isso, a confiança no DS é perdida. Somente definindo as expectativas e metas necessárias (preferencialmente pela
SMART ) é que um departamento de sucesso pode ser criado.

Comece pequeno
É melhor começar com o chamado projeto de prova de conceito - não é muito complicado e tem vida curta, mas pode trazer benefícios comerciais. Por exemplo, aumente a receita em 2% devido ao sistema de recomendação. Não tente criar um conjunto de 5 redes neurais personalizadas e trabalhe nele o ano todo. Por exemplo, mesmo para projetos de classificação de texto, você pode começar com algoritmos simples (como um conjunto de palavras) e já ganhar crescimento. Como resultado, este projeto piloto será o ponto de partida para um maior desenvolvimento e dará à gerência o entendimento de que o dinheiro é útil e que o DS precisa ser desenvolvido. Isso dará tempo para trabalhar em coisas mais complexas. Na ausência de competências, faz sentido que um projeto piloto contrate uma equipe externa de consultores da DS. Eles podem ajudar a realizar seus desejos com uma qualidade razoavelmente boa ou entender quais projetos você pode fazer em seu setor, por onde começar e como você deve construir uma estratégia de IA adicional.

Reunir dados
Tudo aqui é simples e complicado ao mesmo tempo: idealmente, a empresa deve usar todos os dados que possui. Por exemplo, se você é um revendedor on-line, possui pelo menos dados sobre vendas de produtos específicos, comportamento do cliente no site e correspondências de marketing. Já com isso, você pode criar muitos modelos, por exemplo, um sistema de correspondência pessoal.
De fato, a coleta de todos os dados da empresa em um banco de dados geralmente é um grande problema devido à diferença nas fontes, à falta de interação clara entre os departamentos ou mesmo à falta de especialistas em BI na empresa. As organizações que possuem todos os dados armazenados no Excel devem primeiro começar a coletá-los em um banco de dados (SQL) e só depois pensar no DS.
Todos os dados disponíveis devem ser coletados da forma em que for conveniente para analistas e cientistas de dados (geralmente na SQL). É necessário concordar com o departamento de BI com antecedência sobre a forma em que você deseja receber dados, processar e usá-los na produção.
Com uma pequena quantidade de dados, você pode comprá-lo de empresas de terceiros. Por exemplo, uma telecom: conecte esses dados pelo número de telefone com o seu e, portanto, os enriqueça. Mas em cada um desses casos, é necessário calcular se há algum benefício disso.

Encontre Analistas
É importante que a empresa já tivesse um departamento de análise no momento em que o departamento do DS foi estabelecido. Esses são os responsáveis por ajudar os cientistas a encontrar os dados, dizer o que eles significam, como coletar corretamente as variáveis necessárias e muito mais. O Analytics é o primeiro passo para levar a empresa a uma abordagem de tomada de decisões orientada a dados (ou seja, quando todas as decisões da empresa se baseiam nos dados recebidos e não no desejo de gerenciamento). Eles ajudarão a capitalizar os dados sem usar modelos, e os relatórios ajudarão o gerenciamento a tomar as decisões corretas. Além disso, no futuro, são os analistas que monitorarão o status de todos os modelos do DS e prepararão relatórios com base nos resultados.
Escolha uma equipe
Muitos artigos já foram escritos sobre este item, apenas tentarei resumir o que já foi dito. Portanto, uma boa equipe do DS geralmente consiste em:
- Gerente de Projeto - gerencia o projeto, é responsável por toda a parte do negócio;
- Cientista de dados - constrói modelos;
- Engenheiro de dados - coleta dados e prepara pipelines de produção;
- Desenvolvedor - apresenta uma solução DS.
Todas as funções são muito variáveis e podem variar de acordo com seus desejos. Por exemplo, às vezes uma equipe ainda pode ter um analista de negócios, às vezes pode haver vários cientistas de dados ao mesmo tempo, às vezes um engenheiro de dados e um desenvolvedor podem ser uma pessoa. Há muitas opções para a equipe e você precisa aproveitar suas necessidades. Ou tente várias opções e escolha a melhor.
Além da equipe padrão, para criar um departamento do zero, você precisa não apenas de bons especialistas da lista acima, mas também de um evangelista que explique a todos o que é o DS e quais são seus benefícios para outros departamentos - o mesmo Diretor de AI / Diretor de Dados / Chief Digital Officer (escolha seu próprio nome). É importante mencionar que, se você contratar um cientista de dados e executar tarefas para ele, o analista, o arquiteto e o desenvolvedor, não deverá esperar um resultado rápido, além disso, isso pode privar essa pessoa de motivação e a empresa terá um departamento de sucesso no futuro.
Se a empresa é grande e há muitas oportunidades para o desenvolvimento de Big Data, também é necessário o Data Architect, que irá configurar a arquitetura, coletar dados com vários segmentos e implantar o Hadoop ou Spark (sistemas para processamento de grandes matrizes de dados), com os quais os cientistas de dados da empresa já trabalharão. .

Não se esqueça de comunicações internas e treinamento
Após o projeto piloto, é necessário desenvolver ativamente a equipe. Uma empresa deve organizar pelo menos dois tipos de treinamento:
Para os cientistas de dados, isso pode ser oficinas sobre vários tópicos, reuniões semanais, hackathons, master classes. Além disso, você deve prestar atenção na compra de cursos on-line para a equipe (por exemplo, com coursera) e talvez até colocá-lo no KPI. Isso ajudará a manter a equipe atualizada em um campo em rápido desenvolvimento e a melhorar a interação interna.
Para gerentes de projeto e gerentes de topo, também podem ser oficinas na forma de análise de casos de negócios ou estratégias de IA das empresas, ou, por exemplo, cursos básicos compreendem tecnologias de aprendizado de máquina e aprendizado profundo (o que pode e não pode ser feito, o básico tecnologia). Isso apenas ajudará o gerenciamento a gerar expectativas a partir do DS.
Além disso, muito provavelmente, mesmo antes da criação do departamento DS, a empresa já possui pessoas interessadas - podem ser desenvolvedores que fizeram alguns cursos ou empresários que desejam ser gerentes de projeto do DS - elas devem ser atraídas pelo departamento e ajudar a desenvolver . Por exemplo, tendo treinado um desenvolvedor em métodos de aprendizado de máquina, você pode obter um especialista bom e motivado que conhece a estrutura interna da empresa e é mais barato que o cientista de dados médio do mercado, que também precisa de tempo para descobrir isso.

Comunicações externas são importantes
Este item é frequentemente esquecido, mas não é menos importante que o resto. O mercado para especialistas em aprendizado de máquina está com grande escassez de pessoal (tudo começou a melhorar nos últimos anos, mas ainda assim), todo bom cientista de dados entende seu valor e escolhe a empresa na qual deseja trabalhar - portanto, oferecer um salário grande agora não é suficiente, precisa se envolver com os projetos. Para fazer isso, você deve construir corretamente suas comunicações externas - trabalhando com a mídia, formadores de opinião, a comunidade, falando sobre projetos implementados, escrevendo artigos em várias publicações temáticas, falando em conferências, patrocinando eventos industriais como hackathons etc. - isso é apenas uma pequena parte disso. o que fazer para atrair talentos para a empresa.
Isso é tudo: em conclusão, vou apenas dizer que não mencionei especificamente as dificuldades no próprio processo do departamento de Ciência de Dados, mas apenas contei o que é necessário para criá-lo. Se você tem algo a acrescentar - bem-vindo aos comentários.