Competição Graal Telecom Data Cup. O mais quente por vir



No início de novembro, foi lançado o Campeonato de Machine Learning e Análise de Dados, codinome Telecom Data Cup , organizado pelo Mail.Ru Group e MegaFon.

O concurso é lançado na já famosa plataforma ML Boot Camp . Tentamos realizar a maioria de seus concursos de análise de dados. Esta competição é a segunda consecutiva deste ano e a sétima de toda a existência do projeto. Os campeonatos anteriores são abertos no modo sandbox, que permite treinar na resolução de tarefas passadas a qualquer hora do dia ou da noite.

Mais de 2500 usuários registrados para a competição atual, 1700 pessoas baixaram o conjunto de dados, 7800 soluções diferentes foram carregadas e a comunidade de bate - papo ultrapassou a marca de 1600 participantes. A competição terminará no dia 16 de dezembro, então é hora de se juntar ao clube da luta, se você ainda não estiver nele. Congratulamo-nos com e ajudar a todos. Café ou algo de sua preferência e revigorante para ajudá-lo :)



No rodapé do artigo, você encontrará links e materiais úteis sobre esta e as competições anteriores. O principal é que agora você mergulhará no mundo da tarefa Telecom Data Cup, que permitirá que você se envolva rapidamente no processo e desfrute de pesquisas reais.

Brevemente sobre a tarefa


Aqueles que já estão cientes do que está acontecendo no campeonato podem passar para a próxima seção.

Todos nós nos cansamos das pesquisas obsessivas por telefone e internet dos "profissionais de marketing". Imagine como eles ligam para você e pergunte se você está assistindo TV agora, em qual canal, quantos dispositivos estão atualmente conectados e que tipo de programa de TV está acontecendo. Deus, eu realmente quero desligar o telefone (fazemos isso com frequência). Os usuários estão indignados, muito relutantes em compartilhar feedback, o que afeta negativamente a qualidade dos serviços prestados. O problema precisa de uma solução.

Nesta competição, você precisa mergulhar no mundo das telecomunicações, para que, com base nos dados anônimos do usuário fornecidos pela operadora de telecomunicações MegaFon e obtidos durante pesquisas com clientes reais, prevejam se os assinantes estão satisfeitos com a qualidade da comunicação.

9443 assinantes foram pesquisados. O resultado da pesquisa é um índice de satisfação para cada assinante, igual a zero (0 - satisfeito) ou um (1 - não satisfeito). É necessário identificar clientes insatisfeitos com a maior precisão possível.

A métrica que avalia suas decisões é a ROC AUC. A previsão precisa ser feita para 5221 assinantes na mesma ordem que no arquivo subs_csi_test.csv . Os dados podem ser baixados no site da plataforma. Os resultados preliminares serão gerados por respostas para 2088 assinantes e os resultados finais por respostas para 3133 assinantes (40/60). O número máximo de downloads de soluções por dia é 5 e o número de soluções selecionadas é 2.

Graal




O desafio despertou a curiosidade da comunidade. Os participantes escolhem soluções diferentes. Alguns geram modelos N, os visualizam, fluem para baixo e fluem para baixo, e ... pronto, está pronto. Outros geram recursos, estudam a disciplina "Sistemas e Tecnologias de Informação" através de palestras postadas no repositório , e tudo parece estar bem também. E alguns confiam aleatoriamente com boa semente.

Para que a tabela de classificação fique mais bonita no final do concurso, queremos compartilhar alguns Graals na tarefa com você.

Graal número 0.




Preste atenção ao bate - papo e ao repositório do Github com palestras. Há muitas informações úteis. Muitos de nós têm pouca ideia de como a rede funciona. Quem procura sempre encontrará! Uma breve apresentação foi adicionada ao repositório com uma descrição da operação do BS e um arquivo com a distribuição de recursos por serviços.





Em um bate-papo, os participantes torturam os organizadores. Tentando segurar, mas com força.



Graal number 1


Nos dados propostos, o campo cell_lac_id indica uma célula. Cada célula pertence a apenas uma geração de comunicação: 2G, 3G, 4G (LTE). Recomendamos tentar determinar para cada célula a qual geração pertence.

Graal №2


Cada telefone possui a tecnologia máxima de transferência de dados que suporta: 2G, 3G, 4G. Informações sobre isso estão contidas no campo INTERNET_TYPE_ID da tabela subs_features . O campo está codificado. Considere como você pode determinar qual dos valores nesse campo corresponde a qual tecnologia.

Graal número 3


Observe: se algum cliente possui um telefone com suporte para 4G, mas a partir da história, vemos que ele frequentemente baixa tráfego via 3G ou até células 2G, como esse fato pode afetar sua percepção da qualidade da comunicação?

Graal №4


Os clientes têm favos de mel nos quais visitam frequentemente e regularmente (casa, trabalho, estrada, loja etc.) e favos de mel nos quais raramente são poucos. O que você acha, a qualidade de quais células podem ser mais importantes para o cliente? Como você pode identificar células importantes?

Graal №5


A tabela subs_bs_consumption para tráfego da Internet contém informações sobre a quantidade de dados transferidos (SUM_DATA_MB) e o tempo gasto com isso (SUM_DATA_MIN). Quais informações sobre a experiência do cliente na célula podem ser extraídas desses dados?

Graal №6


Nas tabelas bs_avg_kpi e bs_chnn_kpi, há informações sobre um grande número de características de células, em média por dia e na hora mais movimentada (CNN), e com histórico de vários meses. Tente selecionar grupos de células semelhantes entre si em termos dessas características. Talvez existam células muito diferentes da massa total? O que acontece com os clientes que frequentemente visitam essas células?

Neste Graal dos organizadores terminou. Temos certeza de que eles ajudarão você a obter uma melhor conversa particular. Não funciona - carregar aleatoriamente, você nunca sabe, vai voar com uma camiseta. Tudo o mais interessante pela frente. No final do campeonato, o placar queimará :) Lembre-se dos cinco primeiros!



Horário


O campeonato expira em 16 de dezembro e em 22 de dezembro é concedido no escritório da MegaFon.

Apresenta


1º lugar: 400.000 rublos;
2º lugar: 200.000 rublos;
3º lugar: 100.000 rublos.

Tradicionalmente, os 200 primeiros receberão camisetas com os símbolos do campeonato.
Além disso, existem indicações especiais:

  • Para os mais "vkhuh" em privado - SSD Kingston 120 Gb.
  • Cada participante que pegar um múltiplo de 50 receberá uma camiseta com um adesivo do pacote da comunidade.



Comunidade


Participe da nossa comunidade no Telegram. Você sempre pode fazer perguntas, obter aconselhamento especializado no campo da ciência de dados. A Comunidade Mail.Ru Group Championship é uma rede em que é fácil encontrar pessoas com idéias semelhantes.

Links úteis


  1. ML Boot Camp I ( Boot Camp de aprendizado de máquina - como era ... )
  2. ML Boot Camp II ( ML Boot Camp 2016. Novo no Top 10 , “Avaliação de desempenho”. Muito simples ... )
  3. ML Boot Camp III. Dados binários ( como fizemos no ML Boot Camp III , vencedor do concurso ML Boot Camp I ... , ML Boot Camp III: previsão de deixar metade ... )
  4. ML Boot Camp IV. Tarefa secreta ( ML Boot Camp IV. Quarto. Segredo. T ... , ML Boot Camp IV. De 1 em público a 35 em ... , Processos de estabilização e Dirichlet em solução ... )
  5. ML Boot Camp V. Previsão de CVDs ( AgeHack - o primeiro hackathon on-line por um período prolongado ... , ML Boot Camp V, histórico de decisões de três meses ... , Meetup com base nos resultados do campeonato do ML Boot Camp )
  6. ML Boot Camp VI. Previsão da resposta do público à pesquisa on-line ( ML Boot Camp VI. Previsão de resposta do público ... , História do primeiro lugar no ML Boot Camp VI ).

Source: https://habr.com/ru/post/pt432046/


All Articles