Hoje, quase todas as empresas sentem a necessidade de mineração de dados. A ciência de dados não é percebida como algo novo. No entanto, não é óbvio para todos o que deve ser um especialista contratado.
Este artigo não foi escrito por um especialista em RH, mas sim por uma data por um cientista; portanto, o estilo de apresentação é muito específico, mas há uma vantagem - essa é uma visão interna que permite entender quais qualidades um cientista de dados é necessário para a profissão, para que a empresa possa confiar em tais informações. pessoa.Prólogo
Chegou o momento em que a startup de ciência de dados ficou sem fraldas - o número de tarefas para análise aumentou a uma velocidade inesperada e essa velocidade imediatamente deixou de ser compensada pela automação. Tornou-se óbvio que precisávamos de novos cérebros na equipe ...
Como me pareceu a princípio, era necessário que uma pessoa fosse bem definida: apenas um encontro-algo-comum ... programador, analista, estatístico. Então, qual é a dificuldade de compilar uma lista de requisitos?
"Na engenharia, se você não sabe o que está fazendo, não deve fazer isso."
Richard Hamming
Abordei o assunto como de costume. Ele pegou duas folhas de papel. Um intitulado "Habilidades Técnicas", o outro - "Habilidades Profissionais". Depois disso, houve um desejo de subir em qualquer recurso, encontrar um monte de currículos lá, escrever listas de qualidades, escolher as que você gosta. Mas algo me parou. "Este não é o meu caminho", eu disse a mim mesma. "Eu não entendo isso." Eu entendo as tarefas ..
Eu tentei sair da tarefa. Nossas tarefas são simples. Você recebe um CRM que não responde a conteúdo duvidoso e é solicitado a prever vendas com alguns meses de antecedência. Muito simples. Qualquer pessoa pode lidar com ... Isenção de responsabilidade: se você pode entender os negócios do cliente. Idealmente, um grupo de trabalho é escolhido para isso, que abstrai todas as outras tarefas e se dedica a analisar essa em particular. Na entrada - os desejos do cliente, na saída - uma solução que pode ser verificada sem entrar em detalhes e sem duplicar o trabalho realizado.
A partir daqui, reuni o primeiro requisito formal de alguma forma - uma pessoa deve ser capaz de assumir uma tarefa separada e não atrair particularmente ninguém até o momento em que a primeira decisão rude é recebida. Então, essa decisão pode ser melhorada, atraindo especialistas para ajudar. Mas, no primeiro estágio, usar outra pessoa é o mesmo que colocar um supervisor em uma pessoa. E o superintendente pode a qualquer momento afastar o recém-chegado e começar a fazer tudo por ele, tornando a contratação absolutamente sem sentido.
Com base nesse primeiro requisito, preenchi rapidamente a primeira planilha: conheça python, consiga extrair informações de diferentes fontes, armazene informações, use a AWS, conheça o servidor e as estatísticas, consiga processos aleatórios. Um pouco mais tarde, adicionei a economia na versão básica. O resultado é uma lista de habilidades necessárias para garantir que o primeiro requisito seja atendido.
Mas, com a lista de qualidades profissionais, não obtive sucesso. Mesmo pesquisando no Google, não encontrei requisitos profissionais para um cientista de dados que parecessem adequados.
Surgiram formulações gerais da forma “responsabilidade” ou qualidades foram entendidas como habilidades, que pertenciam a outra lista.
Seus próprios pensamentos estavam misturados com mingau, o que era difícil de sistematizar. O global foi misturado ao específico, aplicável apenas a determinadas tarefas. Pareceu-me muito errado suportar de uma só vez qualidades tão gerais, juntamente com qualidades que o candidato nunca poderia usar mais tarde.
Em algum lugar aqui, a idéia do problema nasceu. Pareceu-me uma maneira boa e elegante de compensar a necessidade de filosofar sobre as listas de requisitos e, ao mesmo tempo, coletar a lista necessária, observando erros nas soluções.
Declaração de tarefas
O empresário decidiu abrir uma loja nas quadras de badminton, para que os visitantes não precisassem ir ao supermercado para peteca e raquete.
Ao longo do ano, o empresário manteve todos os recebimentos das compras para entender posteriormente quais decisões deveriam ser tomadas para aumentar os lucros. As informações das verificações estão contidas no arquivo
train_dataset.csv anexado.
Ele embalou petecas e raquetes e vendeu exclusivamente em conjuntos de três tipos:
- Raquete e duas petecas
- Raquete e cinco petecas
- Dez petecas
De tempos em tempos, o empresário tinha que mudar os preços, observando os preços dos supermercados e as taxas de impostos.
A loja e o tribunal trabalhavam sem folgas e feriados. O fluxo de clientes foi um pouco limitado devido ao fato de que apenas 4 pessoas são permitidas na quadra, e a quadra é pré-agendada com antecedência para uma sessão de duas horas, existem apenas três quadras no estádio. No entanto, nem um dia se passou sem uma venda, pois de tempos em tempos ou pessoas completamente despreparadas iam ao tribunal ou alguém rasgava uma raquete ou perdia petecas.
Um ano depois, o empresário decidiu fazer uma venda, que deveria durar de 1 a 31 de janeiro, inclusive. Ele redistribuiu conjuntos de mercadorias e atribuiu a eles os seguintes preços:
- Apenas uma raquete - 11 dólares e 80 centavos
- Cinco petecas - 5 dólares 90 centavos
- Uma raquete e uma peteca - 12 dólares 98 centavos
É necessário estabelecer o tamanho da renda do empreendedor em janeiro.
Sensibilidade à probabilidade
"Eu acredito que as melhores previsões são baseadas na compreensão
envolvidos no processo de forças fundamentais. ”
Richard Hamming
A tarefa foi elaborada imitando as tarefas reais da vida, mas de maneira artificial e não oculta aos candidatos. E, portanto, algumas fórmulas foram aplicadas para criar o conjunto de dados. Suponha, com sabor de variáveis aleatórias, mas fórmulas. De qualquer forma, supunha-se que o cientista de dados fosse capaz de detectar e usar essas fórmulas para previsão.
Obviamente, não se deve descartar a possibilidade de o conjunto de dados não fornecer uma imagem completa que permita restaurar as fórmulas com a precisão necessária. Mas, para esse caso na vida real, apresentamos quais informações adicionais devem ser e de onde obtê-las.
Em geral, o desejo de encontrar a "lei do universo" é uma boa qualidade profissional. A capacidade de entender o que procurar e onde procurar também é. O Sr. Hamming sabia do que estava falando. E, graças a ele, a primeira linha apareceu na minha lista de requisitos:
A capacidade de detectar relacionamentos de causa-efeito, descrevê-los, formular as condições sob as quais os relacionamentos podem ser convertidos em uma fórmula útil para os negócios.Não é por acaso que usei a frase "útil para os negócios" aqui. Na minha prática pessoal, muitas vezes acontecia que não era a resposta para o problema que gerava lucro nos negócios, mas um tipo de subproduto obtido pela abertura de algum tipo de dependência interna. Em alguns casos, isso trouxe dinheiro extra para as startups, novos contratos e aumentou a quantidade de know-how e subprodutos.
Portanto, analisando as decisões enviadas a mim, observei cuidadosamente como o candidato usaria o conhecimento sobre a artificialidade do conjunto de dados, se ele solicitaria informações adicionais em algum momento ou comprovaria a suficiência do conjunto de dados para concluir a tarefa.
Autoconfiança
"Se um evento chama nossa atenção, a memória associativa começa a procurar sua causa, ou melhor, qualquer motivo já armazenado na memória é ativado."
Daniel Kahneman
Não direi que a memória associativa é ruim. Ela é a fonte e o combustível da nossa imaginação. O Fantasy permite gerar hipóteses, apresentar suposições intuitivas, encontrar rapidamente os pares de variáveis entre as quais uma conexão é possível.
E ela nos coloca na onda sob a forma de uma confirmação tendenciosa.
Estamos tão acostumados com nossa própria experiência e nosso próprio conhecimento que começamos a espalhá-los para novas situações. No mundo dos vivos, isso geralmente é útil. Digamos, a crença de que todas as cobras são venenosas, salva mais vidas do que duvida de que essa cobra em particular não é venenosa. Porém, em um escritório seguro, com tempo suficiente, é melhor perceber qualquer julgamento como uma hipótese.
O conjunto de dados da tarefa foi especialmente projetado de tal forma que o intervalo de tempo abrangeu apenas um ano de observações. É bom que os candidatos na fase de consideração dos gráficos apresentem uma hipótese sobre a presença de variações sazonais. É ruim que raramente alguém tenha declarado a necessidade de verificar isso. E é muito ruim que alguns, sem checar, insistissem na presença de sazonalidade.
Então, digitei o seguinte na lista de qualidades:
A criticidade do pensamento, inclusive em relação à sua própria experiência.Eu realmente queria adicionar "e conhecimento" aqui, mas então me pareceu que esse postscript abre um grande tópico novo.
Neurotismo
"Tendo desenvolvido essa ou aquela teoria, voltamos novamente às observações,
para dar uma olhada nela.
Gregory Mankyu
A literatura sobre ciência de dados examina maneiras de automatizar o teste de hipóteses. No entanto, raramente cumpri as diretrizes para seu uso. Por isso, acredite ou não, uma vez que fiquei confuso entre duas atividades aparentemente muito diferentes - verificar hipóteses estatísticas e verificar o modelo.
Ao mesmo tempo, o que é ainda mais confuso, a diferença entre os conceitos da hipótese estatística e a hipótese em geral é negligenciada. Para evitar essa confusão em nosso artigo, deixe-me usar o termo suposição para o conceito geral de uma hipótese.
No parágrafo anterior, uma dessas suposições foi feita em relação ao conjunto de dados, a saber, a presença de sazonalidade. É bastante intuitivamente possível definir um componente sazonal como periodicamente recorrente. E aqui você deve se perguntar imediatamente: quantas vezes o componente precisa ser repetido para que possa ser considerado sazonal? Além disso, podemos, com base na repetição periódica, confirmar a presença de um componente sazonal no conjunto de dados, cujo intervalo de tempo é de apenas um ano.
Como já mencionado, a duração do intervalo foi especialmente selecionada. Eu queria que os candidatos tivessem a necessidade e a oportunidade de oferecer suas próprias maneiras de verificar a disponibilidade de sazonalidade para a tarefa em questão. E também adicionei essa qualidade à lista de qualidades profissionais necessárias:
A capacidade de testar suposições de maneira padrão e criar novas formas de verificação.Provavelmente, “invente novos caminhos” parece muito alto. Raramente encontro a necessidade de apresentar algo novo. O método de considerações simples após a pergunta "E se?" É bastante adequado.
No belo artigo
“Isso está correto, mas falso”, Alexander Chernookiy deu exemplos de soluções rápidas e quase intuitivas para vários problemas probabilísticos. Um mecanismo semelhante, ao que me parece, é bastante adequado para testar suposições.
Primeiro, vamos pensar em que tipo de sazonalidade queremos encontrar. A sazonalidade pode ser um fator externo desconhecido para nós e que representa uma certa repetibilidade paranormal nos dados. É possível descrever essa sazonalidade sem ir além do conjunto de dados, escrevendo o componente sazonal separadamente e mostrando o grau de sua estabilidade. E a sazonalidade pode ser oculta dentro de dados conhecidos. Por exemplo, se a sazonalidade afeta o número de compradores e o número de compradores no volume de vendas, se soubéssemos com antecedência e quando o comprador chegaria, é improvável que precisássemos da sazonalidade como um fenômeno separado. Conseqüentemente, buscaremos precisamente a sazonalidade paranormal, pois não a conhecemos e precisamos dela.
Vamos agora assumir que essa sazonalidade não afeta as vendas. Todas as flutuações nas vendas são aleatórias ou você pode encontrar algum relacionamento entre elas e alterações em outras variáveis. Até que ponto essa dependência descreve o que está acontecendo? Ainda haverá espaço para a sazonalidade paranormal?
Ou seja, para verificar a presença de sazonalidade, podemos encontrar todas as dependências das variáveis conhecidas e, depois disso, subtraindo essas dependências das flutuações, observamos o restante. Além disso, se a propagação do restante for suficientemente pequena, talvez não haja sentido algum na busca de valores paranormais.
Portanto, temos uma maneira simples de verificar a sazonalidade na ausência de um intervalo de dados suficientemente longo.
Cuidado
"Nossa mente não está preparada para entender eventos raros."
Robert Banner
Voltando à busca pela relação entre as duas quantidades, a primeira coisa que tentamos sentir é a mudança mútua. E talvez não exista um método mais simples e elaborado do que a regressão linear. Pode ajudar a formar uma opinião sobre o relacionamento, mesmo nos casos em que o relacionamento quantitativo entre as quantidades é desconhecido. Bem, ele tem várias outras vantagens.
E as falhas.
De fato, a relação entre as duas quantidades está longe de ser sempre tão simples que pode ser identificada por características numéricas. Por mais bela que seja a aproximação linear da relação entre as duas grandezas, sempre existe a possibilidade de estarmos lidando com algo mais complexo. O matemático inglês
Francis Enscombe ilustrou esse fenômeno com quatro exemplos, que mais tarde ficaram conhecidos como
o Quarteto Enscombe .
Colocar algo semelhante ao quarteto de Enscomb na tarefa acabou sendo uma boa idéia e muito simples de implementar. Apesar da popularidade do fenômeno, muitos candidatos caíram na isca.
A implementação do fenômeno no problema foi a seguinte. Que haja três grupos de clientes, cada um deles percebendo um certo interesse na compra. Os dois grupos se comportam de maneira semelhante e seu comportamento é expresso em uma relação linear entre demanda e preço. Mas o terceiro grupo faz o contrário. Com a transição de preços acima de um certo limite, os compradores desse grupo deixam de comprar acentuadamente mais do que o mínimo necessário.
Esse fenômeno, bastante comum no mundo real, tornou possível simular um dos exemplos de Enscomb e ocultá-lo entre duas outras distribuições.
De fato, "esconder" não é um bom ajuste para a situação. Acabei de colocar essa distribuição ao lado de outras, mais familiares e compreensíveis. A diferença era óbvia nos gráficos, como me pareceu, mas nem todos perceberam. E a tentativa de um dos candidatos de "melhorar" a aproximação movendo-se para um polinômio de ordem superior foi especialmente interessante.
Então, eu formulei outro requisito para qualidades profissionais:
Para poder isolar observações significativas, construa hipóteses com relação à sua significância.Impulsividade
"O medidor é usado extensivamente há cinco anos e passou por três verificações."
Timothy Leary
Descrevi anteriormente uma situação em que saldos inexplicáveis se tornam tão pequenos que sua influência se torna indistinguível no contexto dos benefícios comerciais que o restante do modelo oferece.
No entanto, você precisa entender o que pode estar oculto por trás da expressão "tão pequeno".
Geralmente o mundo é observado e medido por nós usando alguns instrumentos. Simples, como uma régua, ou complexo, como um microscópio eletrônico. Dispositivos complexos incluem um computador com um ambiente de programação estatística instalado nele.
De certo modo, qualquer observação ou conclusão que fazemos pode ser percebida como resultado de uma medição. Examinamos as condições do problema e medimos a renda em um intervalo de tempo que ainda não aconteceu. Aqui substituí o misterioso e o mágico por muitos a palavra "prever" pela palavra "medir". Como parte do meu trabalho diário, posso dizer isso, pois a previsão com um nível de precisão bastante alto é substituída pelo cálculo de rotina.
Mas qualquer medição não pode ser extremamente precisa. Cada dispositivo possui um erro de medição causado por sua imperfeição. E nas medições é necessário indicar sua precisão, para isso, juntamente com o resultado obtido, é indicado um intervalo de confiança.
A indicação do intervalo de confiança nem sequer é uma recomendação, mas uma necessidade que é frequentemente esquecida. Além disso, embora algumas pedantarias soem em minhas palavras, acredito que calcular o intervalo de confiança é um ato de auto-estima, e a seguinte qualidade está entre as qualidades necessárias para um cientista de dados:
Precisão na observação dos requisitos formais de algoritmos e métodos, especialmente quando se trata de calcular intervalos de confiança e verificar as condições necessárias e suficientes.Ductilidade
"Esta disposição não é totalmente verdadeira, mas é verdadeira o suficiente para aplicação prática na maioria dos casos."
Francis Enscomb
Até agora, evitei discutir os recursos mais impressionantes dessa tarefa. O intervalo previsto é caracterizado por uma forte mudança nos produtos vendidos. Agora é a hora de explicar por que essa alteração aparece na tarefa.
Acima, já descrevi minha opinião sobre a possibilidade de verificar várias suposições. A verificação deve sempre ser. Se algo não puder ser verificado ou o método de verificação não for conhecido, várias opções deverão ser descritas; eles podem servir como motivo para mais pesquisas. Mas, ao mesmo tempo, é necessário tentar descrever a situação o máximo possível, com base em informações conhecidas.
De fato, o que sabemos sobre vendas? Existem pessoas que, devido aos motivos conhecidos e listados, fazem compras. Você pode simular quase completamente todo o processo, pois encontramos todas as dependências e descobrimos que o resíduo inexplicável é normalmente distribuído e tem uma dispersão muito pequena.
As perguntas começam a aparecer: o volume comprado de mercadorias cobre as necessidades das pessoas? O que eles fazem quando a necessidade permanece não atendida? Por exemplo, o que eles fazem se, na opinião deles, o preço de um produto for muito alto? De onde vem a dependência linear da demanda?
De fato, essas são perguntas para os negócios. E, é claro, eles devem ser solicitados ao proprietário da empresa como um especialista em seu campo. , , , -, . , data science , . , …
, , ? .
Epílogo
data scientist.
- - , , , .
- , , .
- .
- , .
- , .
. , . , , . , , , .
, . , …
: , Co-founder CTO Uninum
: , Co-founder CEO UninumPS
25/06/19: 27/05/19
: 2727
: 94
- , : 20%
- , : 30%
- : 45%
- , : 5%