Como eu estudei ciência de dados

Meu nome é Azat Bulyakkulov. Trabalho como analista de risco na empresa fintech ID Finance. Comecei com a análise, criando relatórios para os departamentos de risco, marketing e finanças. Em nossa empresa relativamente pequena, tive que interagir com todos os departamentos. Como resultado, consegui uma experiência profissional diversificada. Participei do cálculo de reservas financeiras, comparei o desempenho em testes A / B, clientes segmentados para marketing etc. Em menos de um ano de trabalho, ingressei no desenvolvimento de cartões de pontuação. E percebi que quero entender melhor a análise e o processamento de dados.

imagem


Usamos regressões logísticas clássicas para prever os padrões do cliente. Uma das fontes de nossos dados são transações financeiras, às quais, se desejado, os clientes nos fornecem acesso. Trabalhar com eles exigia uma abordagem criativa, pois muitas informações úteis podiam ser extraídas desse repositório de dados. Como aprendi mais tarde, esse processo é chamado de engenharia de recursos. Isso me capturou - fiquei ainda mais interessado em ciência de dados.

Trabalhando com outros departamentos, vi que a possibilidade de aplicar o ML é enorme. Nem o menor papel no meu interesse no DS foi desempenhado pelo fato de estarmos desenvolvendo no pesado SAS-e. Não possui a interface mais conveniente e funcionalidade incompleta. Eu queria trabalhar com uma ferramenta mais flexível.

Percebi que o auto-estudo da ciência de dados, por exemplo, na Coursera, requer forte vontade e autodisciplina, o que não tenho o suficiente. Portanto, comecei a olhar não para cursos on-line, mas para cursos "ao vivo" com palestras, discussões e trabalhos de casa.

Informei meu supervisor no trabalho sobre a direção em que quero me desenvolver. A gerência veio me encontrar e se ofereceu para pagar os cursos e, posteriormente, ir para o departamento de ciência de dados dentro da holding.

Então, comecei a escolher cursos. Curiosamente, os cursos on-line prevalecem no mercado educacional do DS. Mesmo em Moscou, não há uma grande variedade de cursos sérios que não sejam do tipo "ensinaremos ciência de dados em 21 dias". Entendi que o treinamento de qualidade deveria durar pelo menos seis meses. Não considerei o Yandex SHAD, pois requer imersão total e atividades diárias. Trabalhando em período integral, seria difícil absorver e processar o material educacional de maneira de alta qualidade. Olhando para o futuro, direi que, no curso escolhido, tive problemas com o tempo para estudar, sem mencionar o de graça. Como resultado, parei no curso Data Scientist de uma das escolas populares com duração de seis meses: 5 meses de treinamento intensivo + um mês para escrever um diploma.

Sobre o curso


O treinamento custou cerca de 200.000 rublos. Havia muitas aulas - 3 vezes por semana, durante 3 horas. Depois de cada 2 das 3 aulas, havia lição de casa. O programa era clássico e incluía os métodos básicos de aprendizado de máquina, sistemas de recomendação, reconhecimento de imagem, visão de máquina, processamento da linguagem da natureza (PNL) e séries temporais. Além disso, havia vários hackathons e um diploma para aqueles que entregariam a quantidade mínima exigida de lição de casa.

imagem

As aulas foram realizadas em Baumanskaya, 30 pessoas foram inscritas no grupo, mas andaram de maneira constante 15-20. Eu praticava duas vezes à noite nos dias de semana e sábados das 10:00 às 13:00. É curioso que pessoas de diferentes áreas, não necessariamente relacionadas à TI, tenham participado dos cursos. Sim, havia desenvolvedores de front-end / back-end, mas metade do curso estava relacionada a análises de produtos / negócios ou riscos. E para quase todos, esses cursos significaram uma mudança de profissão. Alguns vieram porque agora há um certo hype em torno da ciência de dados, outros estão entediados com suas atividades atuais, enquanto outros planejam usar o DS em seu trabalho. Quase todo mundo pagou o treinamento por conta própria, então o nível de interesse era bastante alto.

Minhas impressões


Tudo começou com conhecimentos básicos e habilidades de programação em python, visualização de dados. Depois, mudamos para um galope e começamos a seguir um método de aprendizado de máquina em uma lição: árvores cruciais, regressão linear / logística, florestas aleatórias, reforços. Pessoalmente, acho que leva mais tempo para aprender esses métodos clássicos.

O que eu gostei


  • Estudamos quase todos os métodos e abordagens modernas de aprendizado de máquina.
  • Havia um bloco separado na engenharia de recursos - até três lições. Esta é uma informação útil, mas, infelizmente, o palestrante não leu esta parte da melhor maneira.
  • Parte da lição de casa era da competição Kaggle. Depois de enviar os resultados, você pode ver sua posição. Depois disso, houve uma motivação para melhorar seu modelo, ajustar seus parâmetros e não apenas fazer a lição de casa no "inferno".
  • Havia cursos aprofundados sobre sistemas de recomendação, PNL e visão computacional, cada um com 6-8 aulas. E, na minha opinião, havia os melhores palestrantes.
  • Após bloqueios na visão computacional e séries temporais, houve 2 hackathons.

Isso acabou sendo um exercício muito útil. A necessidade de obter um resultado aceitável em um período mínimo de tempo ativa e carrega o cérebro ao máximo. Além disso, ao trabalhar em equipe, você vê as abordagens de outras pessoas.

  • Na minha conta pessoal, havia uma classificação de estudante, na qual eu via o progresso dos meus colegas na lição de casa. Isso foi útil. Desde que, durante o intervalo, me aproximei dos “nerds” e perguntei como eles faziam esse ou aquele dever de casa.
  • A vantagem das palestras "ao vivo" são perguntas durante a lição.
  • Na platéia, seguindo as instruções do professor, fizemos pequenos exercícios imediatamente em python
  • Comunidade estudantil - comunicação com colegas de classe, troca de opiniões, foi interessante ouvir os outros sobre sua motivação e áreas de interesse para eles.

O que não gostou


  • Alta densidade na visão geral dos principais métodos - apenas uma lição por método.
  • Em geral, eu gostaria de 2 aulas por semana, não 3. Pessoalmente, para mim, estudar era difícil, comia quase todo o meu tempo livre. Parte dos meus colegas de classe, para minha inveja, poderia estudar no trabalho.
  • Por motivos desconhecidos, a unidade foi transferida via PNL e conduzida para visão computacional (CV). Como resultado, na PNL, tivemos que usar redes neurais, que foram descritas em mais detalhes apenas em termos de CV.
  • Havia professores com habilidades pedagógicas extremamente baixas. Além disso, eles não verificaram a lição de casa a tempo.

imagem
O escopo da ciência de dados vem se expandindo recentemente.

Total


Eu tive 5 meses de treinamento intensivo, onde mergulhei fundo o suficiente no mundo da ML. Aprendi a escrever o processamento de dados em Python, a visualizá-los, a construir vários modelos. Também gerou texto usando redes neurais, imagens classificadas.
Acho que tive uma boa experiência para começar. Meu mentor de diploma disse que nosso conhecimento é puxado por um cientista de dados intermediário e a experiência de um júnior. Bem, veremos em alguns meses. Desde que mudo para o departamento de ciência de dados da nossa empresa por duas semanas.

Source: https://habr.com/ru/post/pt424345/


All Articles