Aprendizado de Máquina vs. abordagem analítica



Há algum tempo, encontramos nossos materiais antigos nos quais ensinamos os primeiros fluxos em nossos cursos de aprendizado de máquina na Data School e os comparamos com os atuais. Ficamos surpresos com o quanto adicionamos e mudamos em 5 anos de treinamento. Percebendo por que fizemos isso e como, de fato, a abordagem para resolver os problemas da Data Science mudou, decidimos escrever esta publicação.

Começamos a treinar com os métodos e algoritmos básicos do aprendizado de máquina, ensinamos como colocá-los em prática, como selecionar parâmetros, como limpar e preparar dados, como medir a qualidade. Acreditávamos (e ainda acreditamos) que o treinamento de um agente-cientista de pleno direito deve incluir não apenas métodos clássicos de aprendizado de máquina, mas também métodos de análise de gráficos (redes sociais, SNA), análise de texto, trabalho com redes neurais e big data (Big Data).

Assim, na saída, contamos com um especialista em um amplo campo da ciência de dados, capaz de aplicar um extenso arsenal de métodos na prática. Levamos os mesmos especialistas ao nosso negócio. Primeiro, na empresa em que trabalhamos e direcionamos as áreas relevantes e, em seguida, em nossos negócios para o desenvolvimento de produtos baseados em aprendizado de máquina - Data Studio .

Mais tarde, porém, percebemos que isso não é apenas suficiente para a implementação bem-sucedida de projetos de ciência de dados, mas que isso nem é o principal.

A abordagem no início da prática da Data Science e, para ser honesto, para muitos analistas até agora, é a seguinte: forneça os dados, vou limpá-los, criar um vetor de recursos, dividi-los em amostras de treinamento e teste, executar vários algoritmos de ML e aqui está o resultado.
Essa abordagem tem direito à vida?

Sim, mas onde a área de assunto já está bem estudada e já existe uma boa experiência acumulada na aplicação de análises. Exemplos? Pontuação bancária, saída de operadores, venda cruzada (Next Best Offer) no varejo, bancos, telecomunicações, prevendo a efetividade dos estoques no varejo, prevendo saldos. Esta lista continua.

Agora vamos imaginar outras áreas: previsão da hora de chegada no transporte multimodal (navio, trem, caminhão): que sinais você usará? Tipo de carga, peso da carga, presença de determinados nós de classificação? E se você pensar sobre isso? Talvez alguns sinais mais simples e óbvios (mesmo sem modelos de aprendizado de máquina) ofereçam uma precisão significativa?

Ou você precisa prever a sensibilidade de grandes clientes a mudanças nos preços de determinados produtos. Como determinar a elasticidade? O que exatamente você vai prever?

Mas é necessário construir um modelo se o processo de produção for alterado posteriormente?

Acontece que você precisa ser capaz de trabalhar em novas áreas de aplicação da analítica, pois em áreas bem estudadas já existem tantos desenvolvimentos e esse é o “oceano vermelho”.
O que é necessário para entrar em novas áreas com análises?

Para fazer isso, você precisa entender profundamente a área de assunto de um processo específico, cujas descrições geralmente não estão disponíveis. Entenda em que tipo de dados geralmente é necessário, entenda no que exatamente os negócios são feitos. Você precisa entender a análise aqui, precisa de alguns algoritmos preditivos, precisa mudar o processo de negócios, existem alavancas operacionais (qual é o ponto de prever o desligamento do equipamento se ainda não há maneiras de evitá-lo?).

Para resumir, são necessários os seguintes itens:

  • Abordagem analítica, capacidade de formular e testar hipóteses
  • Compreendendo os princípios e recursos dos negócios e processos individuais
  • Noções básicas sobre economia de processos
  • Compreensão da tecnologia
  • Capacidade de vincular dados a processos de negócios

E, se você se afastar do aprendizado de máquina, que área é mais capaz de fazer isso? Correto - consultoria de gestão. E onde isso é ensinado usando o chamado método de caso (muitos exemplos de diferentes situações de negócios) - certo, nos cursos de MBA (mestrado em administração de empresas).

Assim, verifica-se que o Data Scientist ideal é formado em MBA, com experiência em consultoria, que concluiu cursos de aprendizado de máquina.

É claro que isso é um exagero, mas é verdade que entre os contratados, aqueles com o mais alto nível de processos e padrões, no nível de seleção e treinamento de pessoal, desenvolveram uma cultura de pensamento analítico. Adotamos a mesma abordagem em nosso Data Studio . E, logicamente, adotamos a mesma abordagem em nosso treinamento na Escola de Dados .

Você pode se opor. Afinal, o que foi escrito acima é mais aplicável em consultoria, onde cada vez que você não sabe com antecedência de qual área de assunto o projeto será. E as grandes empresas em que a área é delineada em princípio?

Nas empresas, observamos todas as mesmas especificidades descritas acima, e a necessidade de um analista e de toda a equipe entender o negócio, a necessidade de responsabilidade pelo resultado final.

Por esse motivo, nas grandes empresas, agora estamos vendo uma tendência na especialização das divisões de ciência de dados e a mudança da função de análise de uma divisão centralizada, uma para toda a empresa, para uma função de negócios, ou seja, mais próxima dos negócios. Com essa especialização, a capacidade de um analista de entender rapidamente um novo negócio e oferecer soluções realistas, em vez de modelos, é uma vantagem competitiva.

O que exatamente mudou em nosso currículo? Antes de todos nós, ensinamos com base em casos práticos. A estrutura e a natureza dos casos foram alteradas. Anteriormente, nossos casos eram como tarefas no Kaggle: aqui está a tarefa, aqui está a variável de destino, aqui está a métrica da qualidade, e aqui estão os dados.

Agora a tarefa parece diferente: aqui está a tarefa em termos do cliente, aqui está uma descrição do processo do cliente. Formule a tarefa de análise, proponha uma métrica de qualidade, avalie a adequação do uso da análise, calcule o efeito econômico, sugira métodos, formule uma solicitação para os dados necessários. E tudo está como sempre: limpe os dados, construa um modelo etc. E damos exemplos de áreas completamente diferentes. Felizmente, a presença de nossa própria consultoria nessa área expande bastante o leque de tarefas disponíveis que resolvemos em nossa própria experiência.

Mas a disciplina da abordagem analítica não é apenas a prática de casos. Também ensinamos as estruturas padrão (padrões básicos de análise) usadas na consultoria. Também adicionamos ao treinamento o processo de desenvolvimento do produto analítico em que aderimos na sala de aula, desde a análise de negócios até a apresentação dos resultados ao cliente e planejando a implantação de uma solução produtiva, incluindo estágios, funções, principais pontos de decisão e momentos de interação com o cliente.

Damos um papel separado às apresentações - muitas vezes observamos uma lacuna entre os pensamentos dos analistas e a percepção desses pensamentos pelos funcionários do cliente.

Em geral, acreditamos que a tarefa de treinar um cientista de dados não é como preparar um especialista para áreas existentes (já existem muitos cursos para isso e isso se tornou commodity de várias maneiras), mas preparar um pesquisador especialista para trabalhar em novas áreas onde A digitalização está chegando.

Bem, e, como sempre - o início de um novo curso na nossa Escola de Dados em 16 de setembro. Aceitamos pedidos de novos projetos no Data Studio o tempo todo, assim como recrutamos funcionários (consulte a seção sobre vagas em aberto).

PS Atualizamos um pouco nosso site para torná-lo mais conveniente. Portanto, não se surpreenda com o novo visual.

Source: https://habr.com/ru/post/pt458956/


All Articles