
Aujourd'hui, le 25 juin, ML Boot Camp VI commence par la tâche de «prévoir la réponse de l'audience à une enquête en ligne» (si vous entendez soudainement pour la première fois ce qu'est ML Boot Camp, passez sous le spoiler).
SpoilerML Boot Camp est un championnat d'apprentissage automatique. Schéma de travail: nous donnons la tâche, et les participants la résolvent en un mois et envoient des solutions. Les auteurs des meilleures solutions reçoivent des prix. La dernière fois, nous avons donné au MacBook Pro la première place, le NVIDIA 1080ti - le deuxième, le NVIDIA 1060 - le troisième, et le WD My Cloud 6 TB pour 4-6 places. Par tradition, nous avons envoyé des T-shirts avec les symboles du championnat aux 50 meilleurs participants.
Avec chaque nouvelle compétition, le public du ML Boot Camp augmente de manière significative (actuellement 7 000 participants de plus de 20 pays sont déjà inscrits).
Au début, les participants reçoivent les conditions de la tâche et une description verbale des données disponibles - un échantillon de formation. L'échantillon se compose d'exemples étiquetés - vecteurs de description de chaque objet avec une réponse connue. Les participants, en utilisant les méthodes d'apprentissage automatique qu'ils connaissent, entraînent l'ordinateur et testent le système formé sur un échantillon de test, qui est divisé en deux parties: la notation et la finale. Le gagnant est celui qui obtient les meilleurs résultats sur les données finales.
Le dernier jour du championnat, le participant peut choisir deux décisions qui le représenteront en finale. Les meilleurs d'entre eux compteront pour le classement.
Vous pouvez trouver les règles et le matériel utile sur
le site Web du championnat .
Cette fois, nous vous proposons de plonger dans l'abîme sombre du marketing: dans le cadre du prochain concours ML Boot Camp, vous pouvez prédire le comportement des utilisateurs dans l'une des études marketing à grande échelle.
Nous proposons une tâche de niveau approprié, tout en essayant de la rendre intéressante pour les pros comme pour les débutants. Dans ce championnat, vous trouverez de vrais travaux de recherche.
Le format de la compétition n'a pas changé: le championnat durera un mois, du 25 juin au 25 juillet 2018. En savoir plus sur les prix et la tâche ci-dessous.
Tâche "Prévision de la réponse de l'audience à une enquête en ligne"
Il existe des résultats d'une enquête en ligne. Il est connu qu'une partie de l'auditoire a complètement et correctement répondu à l'enquête. L'autre partie a répondu au sondage partiellement, avec des erreurs, ou a complètement refusé de participer. Il est nécessaire de prédire avec la plus grande précision possible laquelle des personnes interrogées appartient au premier groupe, c'est-à-dire qu'elle a réussi l'étude complètement et sans erreur.
Le fichier de données principal contient 19 528 597 lignes (10 Go) et se compose de 6 colonnes:
1 . cuid est un identifiant. Un fichier peut contenir plusieurs entrées pour un identifiant;
2 . cat_feature est une variable catégorielle. Plage de valeurs: {0,1,2,3,4,5};
3-5 . mètres collectés sur la base du comportement humain sur Internet. Format: {w_1: c_1, w_2: c_2, ...}, où w_i est le jeton codé et c_i est la fréquence de ce jeton;
6 . dt_diff - le nombre de jours avant la date de réception de la valeur de la variable cible.

Un petit morceau de données à titre d'exemple:
00000d2994b6df9239901389031acaac 5 {"809001":2,"848545":2,"565828":1,"490363":1} {"85789":1,"238490":1,"32285":1,"103987":1,"16507":2,"6477":1,"92797":2} {} 39
Des prédictions doivent être faites pour 181 000 utilisateurs. L'ensemble de données pour l'apprentissage du modèle contient un tableau avec les identifiants et les valeurs de la variable cible (427 995 enregistrements).
La métrique de tâche est l'AUC ROC. Cela signifie que la réponse est une évaluation de l'appartenance à une classe comprise dans l'intervalle [0; 1] pour chaque cuid. Cette métrique, en fait, évalue l'exactitude de l'ordre par le classificateur des objets par rapport à l'une des classes. Dans ce cas, nous ne nous intéressons pas au libellé de classe spécifique que l'algorithme donnera ou à la probabilité spécifique pour chaque objet. Nous nous intéressons à l'exactitude de la commande elle-même.
Bien sûr, il arrive que dans le contexte d'une application spécifique, à égalité roc_auc, une solution puisse s'avérer meilleure qu'une autre, mais nous avons décidé de ne pas compliquer la tâche.
Prix
La distribution de six prix cette fois ressemble à ceci:
Top1: Apple MacBook Pro 13
Top2: Apple MacBook Air 13
Top3: Western Digital My Cloud Mirror
Top4-5-6: Western Digital My Passport 4 To
Comme toujours, les 50 meilleurs participants recevront des T-shirts avec les symboles du championnat, et les participants avec les solutions les plus intéressantes seront invités pour un entretien au Mail.Ru Group au poste de Data Scientists.
Community MLBootCamp
Rejoignez notre communauté sur Telegram. Vous pouvez toujours poser des questions, obtenir des conseils d'experts dans le domaine de la science des données. De plus, la communauté du championnat Mail.Ru Group est en réseau où il est facile de trouver des personnes partageant les mêmes idées.
Inscription
Le championnat commence aujourd'hui à 19h00, heure de Moscou.
L'inscription est ouverte. Nous attendons tout le monde et bonne chance!