O que o Big Data faz no MegaFon e como chegar lá?

A MegaFon não é apenas uma empresa de telecomunicações que fornece comunicações móveis, é uma empresa digital que cria produtos que formam um ecossistema para a vida do cliente: "Cartão próprio", "Cartão de reembolso próprio", "MegaFon.TV", "MegaFon.Music" e muitos outros. O Departamento de Análise de Big Data MegaFon personaliza ofertas para as necessidades de cada cliente.

imagem
Discurso do analista do MegaFon Big Data na conferência Data Fest na primavera de 2019

Os datacientistas da MegaFon estão resolvendo o problema de preservar a base de assinantes, que é uma das prioridades da empresa em meio a um crescimento mais lento do mercado de serviços de telecomunicações. Por exemplo, alguns anos atrás, com base em big data, uma nova linha tarifária “Turn on” foi desenvolvida. Ele é construído sobre os reais interesses dos usuários digitais: conversando, conversando em mensageiros, ouvindo música, conversando em redes sociais, assistindo vídeos. Os nomes das tarifas correspondem ao preenchimento de acordo com os interesses, e o uso ilimitado de aplicativos familiares não requer cálculos de tráfego consumido. Ao formar um ecossistema, nossa tarefa é fazer uma oferta individual para cada cliente.

O Big Data também resolve os problemas associados ao varejo. Por exemplo, com a ajuda de modelos de aprendizado de máquina, entendemos para onde mover salões ineficientes e onde abrir novos. O trabalho com dados geográficos nos ajuda nessa direção.

A análise de big data também é usada em tarefas relacionadas ao desenvolvimento da infraestrutura de rede, onde, usando a análise de torres e o tráfego delas, determinamos a cobertura ideal e prevemos locais promissores para a construção.

Quais tecnologias são usadas?

A quantidade de dados com que trabalhamos é de milhões de assinantes e bilhões de registros diários para eles. Big Data não são apenas bancos de dados como Oracle, MySQL ou MongoDB. O Big Data é uma gama completa de softwares para trabalhar com eles. Para trabalhar com big data, você precisa entender como o Hadoop funciona, conhecer os recursos de trabalho com Spark, Hive, HDFS. Frequentemente, os analistas de dados que chegam até nós não usavam essas ferramentas anteriormente em seus trabalhos. Nesse caso, ensinamos as habilidades que não são suficientes.

As habilidades de trabalhar com big data são adquiridas com experiência; portanto, a MegaFon está interessada em analistas talentosos, prontos para aprender todas as ferramentas necessárias e aplicá-las às tarefas reais da empresa.

imagem
BigDataCamp no escritório da MegaFon, 2019

Como os especialistas do Big Data da MegaFon desenvolvem modelos?

Os especialistas em Big Data da MegaFon são divididos em analistas (dataaentists) e engenheiros. Analistas testam hipóteses e constroem modelos de aprendizado de máquina. Os engenheiros ajudam os analistas a coletar as fachadas das lojas, otimizar os processos ETL e são responsáveis ​​pela configuração de modelos na produção.

O desenvolvimento do modelo é o seguinte. Primeiro, coletamos os dados necessários no Hadoop ou Oracle. Em seguida, o modelo é treinado em servidores dedicados com uma grande quantidade de memória e núcleos de CPU. Para treinar redes neurais, usamos servidores com GPUs.

imagem
BigDataCamp no escritório da MegaFon, 2019

A principal linguagem para o desenvolvimento de modelos é o Python. Para processar dados em Python, as bibliotecas padrão Pandas, NamPy e Scikit-learn são geralmente necessárias. Para cálculos no Hadoop, são utilizados o PySpark e o Hive, para modelagem - bibliotecas Scikit-learn, Xgboost, LightGBM, PyTorch e outros. A lista depende da tarefa. Por que Python? Sua principal vantagem é a simplicidade da produtividade. Podemos tomar uma decisão que será imediatamente integrada à infraestrutura comum. Embora aconteça que as bibliotecas necessárias não estejam em Python, elas estão em outros idiomas. Por exemplo, o R possui bibliotecas de estatísticas que não estão no Python.

E se ninguém conhece o Hadoop?

As habilidades do Hadoop são desejáveis, mas não são um pré-requisito para chegar à nossa equipe. Nem todas as empresas têm a quantidade de dados que o MegaFon possui e, como resultado, os candidatos não tiveram a oportunidade de trabalhar com o Hadoop em seu local de trabalho anterior.

Não é muito difícil dominar os comandos básicos para trabalhar com o cluster Hadoop, mas quando se trata de tarefas mais complexas, é necessário um profundo conhecimento dos algoritmos de big data, do MapReduce e dos métodos de otimização de consultas. Por exemplo, no ecossistema Hadoop, existe um produto como o Hive. Ele permite que você escreva consultas semelhantes a SQL e execute sobre o Hadoop. Foi originalmente desenvolvido pelo Facebook. Mas você deve se lembrar que isso não está manipulando um banco de dados relacional, apesar do fato de você estar escrevendo no SQL. Aqui, você pode escrever consultas simples, mas para obter eficiência, ou seja, velocidade e uso mínimo dos recursos do cluster, você deve entender as nuances da otimização de consultas usando o MapReduce.

Os estágios são uma oportunidade para desenvolver e ganhar experiência de negócios. Existem estágios em
Big Data MegaFon?

Em nosso mundo digital, parece que qualquer banco já coleta dados sobre a pessoa que está sentada nele, sem mencionar a Internet das coisas e o grande número de serviços que todos nós usamos.

A necessidade de especialistas está crescendo, há um grande número de análises e previsões sobre quantas serão necessárias no futuro próximo. Toda empresa que coleta pelo menos alguns dados entende que esses dados podem ter valor e um grande número de informações. Portanto, os analistas de dados estão agora em tal demanda.

imagem
BigDataCamp no escritório da MegaFon, 2019

Temos o prazer de contar com excelentes especialistas, mas o mercado é pequeno e não há muitos adequados para nós. Portanto, a MegaFon está desenvolvendo programas de estágio. Basicamente, convidamos estudantes seniores e recém-formados que estão envolvidos em programação e matemática a fazer estágios. Há exceções, por exemplo, houve uma experiência bem-sucedida na interação com indivíduos de departamentos de geografia. É importante para nós que o aluno possa combinar harmoniosamente o trabalho com o estudo, se desenvolver ainda mais na empresa e, no futuro, passar para a posição de analista ou engenheiro.

Como você digita uma equipe?

Nossas entrevistas com estagiários são diferentes das entrevistas com profissionais experientes. Ao procurar estagiários, o recrutador realiza uma pequena entrevista por telefone, cujos resultados deixam claro se o candidato está interessado em nossas tarefas e que nível de conhecimento e experiência ele possui atualmente. É importante para nós se o candidato é capaz de programar em Python, se conhece as bibliotecas básicas de aprendizado de máquina, se tem experiência na solução de problemas de treinamento relacionados à análise de big data, se já construiu modelos matemáticos e quais algoritmos ele usou.

Com base nos resultados de uma entrevista por telefone, selecionamos de 5 a 10 candidatos que simultaneamente visitam nosso escritório por 2 a 3 horas para conhecer os caras da equipe e resolver a tarefa técnica. É o mais próximo possível do setor de telecomunicações - é necessário construir um modelo para classificar nossos assinantes. Em seguida, comparamos os resultados e convidamos os melhores para a entrevista final para discutir um horário de trabalho individual, tarefas e outras condições.

O estágio dura 3 meses. O estagiário está envolvido em tarefas reais de negócios. Na maioria das vezes, as tarefas já estão formalizadas e uma pessoa tem um entendimento claro do que precisa ser feito; caso contrário, você sempre pode recorrer ao seu mentor .

Além das tarefas de negócios, nossos estagiários passam regularmente por treinamento offline e online. Trabalhamos com New Pro Lab, Big Data Team, Geek Brains, Data Gym e outros, nossos especialistas têm acesso ao Coursera.

Como mostra a prática, três meses são suficientes para entender se queremos continuar trabalhando juntos. Se o estagiário mostrar bons resultados, nós o levamos à posição de cientista júnior de dados e nos desenvolvemos mais.

imagem
Egor, Analista de Big Data da MegaFon, na conferência Data Fest na primavera de 2019.

A busca por profissionais experientes é a seguinte:

1. Currículo duplo ou perfil de candidato com líderes de equipe e recrutador.

2. Entrevista pessoal com o líder da equipe, onde há perguntas técnicas e não apenas: teoria das probabilidades, estatística, aprendizado de máquina, experiência no uso de diferentes utilidades, expectativas do próprio candidato.

3. Se a entrevista foi boa para ambas as partes, solicitamos o portfólio do candidato (projetos pessoais e código) ou solicitamos que resolvamos nossa tarefa técnica para ver o código e descobrir o progresso da solução dos problemas. A tarefa técnica também está associada à telecomunicação: é necessário prever se o assinante possui vários cartões SIM. O prazo da tarefa é determinado pelo próprio candidato, mas geralmente não passa de uma semana. Um de nossos funcionários resolveu a tarefa naquela noite e uma semana depois veio trabalhar para nós. Oi Artyom;)

4. Reunião com o diretor de análise de big data, discussão de tarefas e condições.

A burocracia é forte em uma grande corporação?

A maioria de nossa equipe trabalha na sede em Moscou, mas temos equipes em Níjni Novgorod e Ecaterimburgo. Colegas de diferentes cidades podem estar envolvidos em projetos, tudo depende das tarefas e habilidades dos funcionários.

Nosso departamento é jovem, dinâmico e, inicialmente, conseguimos criar corretamente processos para interagir com outros departamentos: não precisamos solicitar dados por meio de colegas, usamos principalmente nosso banco de dados, Oracle ou Hadoop e construímos um modelo.

imagem
Trabalho no escritório da MegaFon

Nosso fluxo de trabalho está organizado da seguinte maneira. Primeiro, o gerente discute os requisitos com um representante do cliente. Como regra, estamos falando em melhorar um processo de negócios usando aprendizado de máquina e análise de dados; por exemplo, podemos otimizar a venda de smartphones para o nosso varejo. Em seguida, o gerente, o líder da equipe e o analista discutem em conjunto os termos e estágios do desenvolvimento. Os arranjos são registrados em Jira, também executamos o Confluence, este é o nosso Wiki interno. Obviamente, usamos o Gitlab.

Este ano, introduzimos o processo de revisão de código para todos os principais estágios do projeto de ciência de dados e já vemos os resultados: a qualidade do código de muitos indivíduos melhorou significativamente. Planos adicionais para melhorar o processo de desenvolvimento são a implementação da ferramenta DVC (Data Version Control), que permitirá a versão de todo o projeto, incluindo conjuntos de dados.

A duração dos projetos pode variar de vários meses a seis meses. O analista está envolvido em todas as etapas do projeto, desde formalizar requisitos e determinar o evento alvo do modelo, terminando com o monitoramento da estabilidade do resultado na produção.

Somos muito orientados para os resultados, nunca empreendemos o desenvolvimento sem uma compreensão clara dos benefícios que podemos trazer ao MegaFon.
Após a construção do modelo, lançamos campanhas de teste com base nos resultados de seu trabalho. Se for bem-sucedido, lançamos nossa solução para milhões de assinantes do MegaFon. No futuro, analisamos os resultados não apenas do ponto de vista das métricas do modelo, como precisão ou integridade no segmento de destino, mas também abordamos seriamente a análise dos indicadores de negócios. Nossos analistas de negócios nos ajudam com isso.

Equipe e Desenvolvimento

A maior vantagem do trabalho neste departamento é uma equipe de pessoas realmente inteligentes e tarefas interessantes. O escritório, o shopping, bônus, remuneração, é claro, também são bons, mas está em terceiro lugar. O MegaFon para analistas é um verdadeiro depósito de dados. Nem todo mundo tem a oportunidade de trabalhar com esse tipo e quantidade de dados que, quando analisados, você pode obter insights e tomar decisões que acabarão gerando muito dinheiro. Este é o mais interessante para o analista. Você estudou na universidade, escreveu um novo algoritmo, codificou, aplicou métodos científicos, o algoritmo começou a funcionar e realmente traz algum benefício. É isso que causa mais emoções.

Somos pessoas de números, cercadas por pessoas do comércio, e quando nossos insights levam a ganhar dinheiro - é ótimo!

A entrevista foi preparada em conjunto com o serviço de carreira My Circle.

Source: https://habr.com/ru/post/pt479384/


All Articles