
Recentemente, surgiram muitos cursos, acadêmicos e particulares, que visam treinar análise de dados e treinar especialistas que podem resolver problemas de negócios usando o aprendizado de máquina. Se você observar atentamente os programas desses cursos, eles são todos iguais, a diferença está apenas nos formatos de treinamento (online offline) e nos professores.
A Escola de Dados começou a fazer esses cursos em 2015. Além disso, eles começaram a fazer de acordo com o mesmo cenário. Revisamos um grande número de programas de vários cursos acadêmicos em aprendizado de máquina, com base na experiência, escolhemos apenas o que é realmente necessário para resolver problemas práticos e criamos um grande número de cadernos Jupyter nos quais tentamos decifrar matemática e aprendizado de máquina em nossos dedos.
Tentamos ensinar principalmente tecnologias de aprendizado de máquina, métodos de processamento de texto, redes neurais, análise de estruturas de rede, sistemas de recomendação e outras áreas de análise de dados. E parece que as avaliações dos alunos foram boas, mas ainda faltava alguma coisa.
Considerando que nossa principal atividade é o desenvolvimento de tarefas reais no âmbito do
Data Studio , os alunos, em primeiro lugar, nos preparamos. Logo percebemos que, na prática, o conhecimento da análise de dados e dos métodos de aprendizado de máquina é, como dizem os matemáticos, "uma condição necessária, mas não suficiente". Por isso, atualizamos muito rapidamente o programa de nossas aulas, levando em consideração as necessidades reais.
Resumidamente, as conclusões a que chegamos (e com base nas quais estamos construindo nosso treinamento):
- Aprendizado de máquina e tecnologias de rede neural superestimadas
- Técnicas de aprendizado de máquina podem canibalizar uma cultura de pensamento analítico
- Para alcançar o efeito econômico de projetos que envolvem análise de dados, as habilidades sociais são mais importantes do que o profundo conhecimento de ML
- A profissão de cientista de dados é superestimada, não haverá mais especialistas universais
Os parágrafos a seguir discutirão todos esses problemas.
A maioria das tarefas de grandes empresas que agora estão tentando resolver usando métodos modernos de análise de dados e redes neurais foi resolvida por um longo tempo. Os bancos são os casos de maior sucesso no gerenciamento de riscos. Nas telecomunicações, esse é o CRM / CBM, onde todo o modelo de negócios está vinculado ao aumento de assinantes de LTV. O varejo funciona da mesma maneira - há várias tarefas (previsão de RTO, gerenciamento de estoque, promoções) que fornecem o negócio principal.
Existem empresas manufatureiras nas quais as principais tarefas são aumentar a estabilidade do regime, reduzir perdas e manutenção preditiva, por um lado, e gerenciar saldos de estoque e marketing, por outro.
Essas tarefas não são novas, seus analistas estão resolvendo há muito tempo. Além disso, analistas que entendem a área de assunto. Além disso, na maioria dos casos, há um número considerável de fornecedores que são padrões de fato para determinadas tarefas, como gerenciamento de preços (no caso de varejo) ou sistemas APC (no caso de produção). Além disso, como regra, algoritmos de otimização, incluindo aprendizado de máquina em tais sistemas, já estão em vigor.
Fazer algo fundamentalmente novo aqui e ganhar dinheiro com isso é extremamente difícil. Como diz o ditado, "maçãs que caíram de uma árvore" já foram colhidas. Resta procurar apenas novos casos de negócios nos quais a análise produz um efeito econômico. Realmente existem exemplos - e há mais e mais deles.
No entanto, para encontrar esses exemplos e ver o efeito da análise, não é fácil. Para fazer isso, você precisa entender profundamente a área de assunto de um processo específico (cuja descrição geralmente não é). Entenda em que tipo de dados geralmente é necessário, entenda no que exatamente os negócios são feitos. Para entender se a análise é necessária aqui, se alguns algoritmos preditivos são necessários (mais frequentemente do que não), se é necessário alterar o processo de negócios (mais frequentemente sim), se existem alavancas operacionais (qual é o ponto de prever o desligamento do equipamento se ainda não há maneiras de evitá-lo ?).
Portanto, no processo de implementação de um produto digital, surgem muitas perguntas que exigem uma abordagem analítica, uma certa cultura de trabalho com dados, a capacidade de colocar hipóteses, fazer perguntas a si mesmo e pensar em termos de proprietário de uma empresa. O fato é que isso não é ensinado nas escolas de análise de dados, não é ensinado na Coursera. Sim, os cursos modernos provavelmente treinam bons engenheiros e matemáticos, mas nenhum analista, eles não.
Além disso, o conhecimento dos métodos de aprendizado de máquina e das redes neurais tem mais chances de matar a cultura do pensamento analítico. A maioria dos cientistas de dados modernos, como crianças atrás de um carro esportivo, se considera única (eles sabem muitas palavras inteligentes sobre xgboost, redes neurais etc.), não sabem dirigir (mas por que se o carro faz tudo por você) e só vão rápido porque há muita potência (ferro forte, embora aqui seja mais provável que se treine novamente).
Como resultado, temos a seguinte imagem: algumas pessoas inteligentes e queridas vêm, quase não fazem perguntas, dizendo que os dados nos dizem tudo. Eles pegam alguns dados e depois vêm - dizem que construíram algum tipo de modelo, chamam de precisão em porcentagem e é isso. Assim que você começa o desafio - eles dizem em palavras estranhas, esmagam a inteligência, mas não há sentido neles.
Isso explica que agora entre os contratados para transformação digital ou análise de dados - predominam principalmente as empresas de consultoria (não TI). Por terem uma cultura de análise, uma cultura de pensamento de negócios, sempre aliviam dores de cabeça, oferecem soluções. Eles não se limitam à construção de um modelo de aprendizado de máquina, eles fazem análises reais que ajudam a tomar uma decisão.
Outra tendência que está acontecendo no mundo agora é que, mesmo que o Cientista de Dados tenha menos sucesso, ele não pode ser universal. Em muitas empresas, a estrutura centralizada criada inicialmente envolvida na análise de dados foi distribuída. O escritório central tem apenas o papel de fornecer infraestrutura e, em toda a parte do supermercado, produtos digitais reais já são fabricados diretamente nas unidades de negócios. Nessa estrutura, respectivamente, o Data Scientist (desde que ele esteja “correto”) se torna um especialista na área de assunto - a funcionalidade é transferida para ele, que até então era apoiada pelos “antigos” analistas que trabalhavam antes dele. Em caso de sucesso, ele também recebe as alavancas operacionais.
Como resultado, há uma tendência crescente de fornecer aos analistas de sucesso alavancagem operacional em suas mãos e sua responsabilidade está aumentando. Mas apenas em uma área de assunto. Prevemos (como confirmado por grandes empresas do mercado) que não haverá mais analistas universais - o hype acabou, é hora de sermos responsáveis pelo resultado. Aqueles que podem resolver problemas de negócios com a ajuda da análise irão para a parte de compras, e aqueles que podem ensinar xgboost voltarão para a academia ou darão palestras sobre aprendizado de máquina.
Por isso, revisamos completamente nossos cursos (inclusive porque levamos muitos de nossos alunos para o
Data Studio ) e agora:
0. Para começar, na entrada, vemos em cada aluno nossos futuros funcionários que navegarão conosco no mesmo barco e participarão de grandes projetos. Portanto, estamos interessados no fato de o aluno nesses 3,5 meses estar preparado da maneira mais eficiente possível. Você sempre pode ter tempo para fazer o próximo curso no Coursera, se houver necessidade de entender os detalhes de um algoritmo específico. No entanto, obter a experiência de casos reais é muito mais difícil. E é por isso que:
1. O treinamento é baseado no método do caso. Nós assumimos a tarefa real, primeiro analisamos o modelo de negócios, a economia unitária, entendemos que qualidade, com base em números reais, devemos alcançar nessa tarefa. Avaliamos o potencial efeito econômico. E somente depois disso começamos a lidar com a parte técnica, mergulhando gradualmente em métodos analíticos, aprendizado de máquina e redes neurais. E o que é importante - fazemos isso apenas se for realmente necessário nesta tarefa
2. Trabalhamos com cada aluno individualmente. Apesar de tentarmos recrutar um grupo homogêneo, entendemos que as pessoas são diferentes - cada uma tem seu próprio plano de treinamento individual e sua lição de casa. Em nossa opinião, isso não faz sentido quando algumas dezenas de pessoas resolvem o mesmo problema. Isso não é eficaz, mesmo em termos de bom senso. Todos os alunos recebem as respostas do professor no bate-papo, o aluno nunca será jogado um a um com a tarefa.
A única coisa que avisamos com antecedência na entrada é que o treinamento exigirá um tempo significativo, você precisará constantemente fazer tarefas de casa, mergulhar nos detalhes e passar o fim de semana aprendendo.
Entendemos que isso não é uma história de massa.
O Data Studio opera com sucesso há vários anos, inclusive porque é difícil entrar nele. Estamos cientes de que, nas realidades atuais, é mais fácil aumentar as análises do que fazer cursos após o Coursera. É por isso que os alunos mais motivados chegam inicialmente à
Escola de Dados . Geralmente - o tamanho do grupo não excede 15 a 20 pessoas, o que permite que você faça o treinamento virtualmente individual.
Sem mencionar o fato de termos pensado completamente em todo o lado técnico - notebooks Jupyter pré-preparados, um sistema de comunicação eficaz para participantes remotos, transmissões on-line - tudo isso ajuda até os participantes remotos a se comunicarem diretamente com outras crianças da sala de aula.
Não ensinamos cientistas de dados - treinamos pessoas de pleno direito que podem resolver problemas de negócios com a ajuda de análises.
O início do novo
curso será no dia 23 de setembro. Para perguntas sobre o projeto, entre em contato conosco no
Data Studio .