Novo Campeonato ML Boot Camp VI. Previsão da resposta do público à pesquisa on-line



Hoje, 25 de junho, o ML Boot Camp VI começa com a tarefa de “Previsão da resposta do público a uma pesquisa on-line” (se você ouvir de repente pela primeira vez o que é o ML Boot Camp, entre no spoiler).

Spoiler
O ML Boot Camp é um campeonato de aprendizado de máquina. Esquema de trabalho: damos a tarefa e os participantes a resolvem dentro de um mês e enviamos soluções. Os autores das melhores soluções recebem prêmios. Na última vez em que atribuímos ao MacBook Pro o primeiro lugar, o NVIDIA 1080ti - o segundo, o NVIDIA 1060 - o terceiro e o WD My Cloud 6 TB por 4-6 lugares. Por tradição, enviamos camisetas com os símbolos do campeonato aos 50 melhores participantes.

A cada nova competição, o público do ML Boot Camp está crescendo significativamente (atualmente 7.000 participantes de mais de 20 países já estão registrados).

No início, os participantes recebem as condições da tarefa e uma descrição verbal dos dados disponíveis - uma amostra de treinamento. A amostra consiste em exemplos rotulados - vetores de descrição de cada objeto com uma resposta conhecida. Os participantes, usando os métodos de aprendizado de máquina conhecidos por eles, treinam o computador e testam o sistema treinado em uma amostra de teste, dividida em duas partes: classificação e final. O vencedor é quem obtém os melhores resultados nos dados finais.

No último dia do campeonato, o participante pode escolher duas decisões que o representarão na final. Os melhores deles contarão para o placar.

Você pode encontrar as regras e materiais úteis no site do campeonato .

Desta vez, oferecemos a você mergulhar no escuro abismo do marketing: como parte da próxima competição do ML Boot Camp, você pode prever o comportamento do usuário em um dos estudos de marketing em larga escala.

Oferecemos uma tarefa do nível apropriado, enquanto tentamos torná-la interessante para profissionais e iniciantes. Neste campeonato, você encontrará um trabalho de pesquisa real.

O formato da competição não mudou: o campeonato durará um mês, de 25 de junho a 25 de julho de 2018. Leia mais sobre prêmios e a tarefa abaixo.

Tarefa "Previsão da resposta do público a uma pesquisa on-line"


Existem resultados de uma pesquisa online. Sabe-se que parte do público passou na pesquisa completa e corretamente. A outra parte completou a pesquisa parcialmente, com erros ou recusou-se completamente a participar. É necessário prever com a maior precisão possível qual dos respondentes pertence ao primeiro grupo, ou seja, passou no estudo completamente e sem erros.

O arquivo de dados principal contém 19 528 597 linhas (10 GB) e consiste em 6 colunas:

1 cuid é um identificador. Um arquivo pode conter várias entradas para um identificador;
2) cat_feature é uma variável categórica. Faixa de valores: {0,1,2,3,4,5};
3-5 . medidores coletados com base no comportamento humano na Internet. Formato: {w_1: c_1, w_2: c_2, ...}, em que w_i é o token codificado e c_i é a frequência desse token;
6 dt_diff - o número de dias antes da data em que o valor da variável de destino foi recebido.



Um pequeno pedaço de dados como exemplo:

00000d2994b6df9239901389031acaac 5 {"809001":2,"848545":2,"565828":1,"490363":1} {"85789":1,"238490":1,"32285":1,"103987":1,"16507":2,"6477":1,"92797":2} {} 39

Previsões devem ser feitas para 181 mil usuários. O conjunto de dados para treinar o modelo contém uma tabela com identificadores e valores da variável de destino (427 995 registros).

A métrica da tarefa é a ROC AUC. Isso significa que a resposta é uma avaliação dos membros da classe no intervalo [0; 1] para cada cuid. Essa métrica, na verdade, avalia a correção da ordem pelo classificador de objetos em relação a uma das classes. Nesse caso, não estamos interessados ​​no rótulo de classe específico que o algoritmo fornecerá ou na probabilidade específica de cada objeto. Estamos interessados ​​na correção da própria ordem.

Obviamente, no contexto de uma aplicação específica, com igual roc_auc, uma solução pode se mostrar melhor que outra, mas decidimos não complicar a tarefa.

Prémios


A distribuição de seis prêmios desta vez é assim:

Top1: Apple MacBook Pro 13
Top2: Apple MacBook Air 13
Top3: Western Digital My Cloud Mirror
Top4-5-6: Western Digital My Passport 4 TB

Como sempre, os 50 principais participantes receberão camisetas com os símbolos do campeonato, e os participantes com as soluções mais interessantes serão convidados para uma entrevista no Mail.Ru Group na posição de Data Scientists.

Comunidade MLBootCamp


Participe da nossa comunidade no Telegram. Você sempre pode fazer perguntas, obter aconselhamento especializado no campo da ciência de dados. Além disso, a comunidade de campeões do Mail.Ru Group está em rede, onde é fácil encontrar pessoas com idéias semelhantes.

Registo


O campeonato começa hoje, às 19:00, horário de Moscou. O registro está aberto. Estamos esperando por todos e boa sorte!

Source: https://habr.com/ru/post/pt415191/


All Articles